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内 容 提 要 








本 书 开门 见 山 ， 直 接 帮助 你 准备 好 训练 高 效 深 度 学 习 模 型 的 环境 ， 以 完成 各 种 计算 机 视觉 任务 。 书 中 
介绍 了 常见 的 深度 学 习 架 构 ， 如 卷 积 神经 网 络 和 递归 神经 网 络 ; 讲述 了 如 何 利用 深度 学 习 进 行 























解决 计算 机 杭 沉 难题， 














图 像 检索 、 目 标 检测 、 语 义 分 割 等 内 容 。 读 完 本 书 ， 你 将 能 够 开发 和 训练 自己 的 深度 学 习 模 型 ， 
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计算 机 视觉 是 一 门 研究 如 何 使 机 器 “看 ”的 科学 。 它 涉及 如 何 使 计算 机 从 数字 网 像 或 视频 中 
获得 高 层次 的 理解 ,并 寻求 自动 化 人 类 视觉 系统 可 以 完成 的 任务 。 深 度 学 习 是 机 器 学 习 研 究 中 的 
一 个 新 领域 , 它 通过 多 层 神经 网 络 模仿 人 脑 的 机 制 来 分 析 和 解释 数据 。 深 度 学 习 不 仅 推动 了 计算 
机 视觉 领域 的 发 展 , 其 自身 也 在 解决 计算 机 视觉 问题 的 过 程 中 不 断 进步 。 结 合 深度 学 习 , 计算 机 
视觉 的 许多 新 应 用 应 运 而 生 , 并 且 正 在 成 为 我 们 日 常生 活 的 一 部 分 , 包括 人 脸 识别 、 自 动 驾 驶 汽 
车 中 的 机 器 视觉 等 。 


本 书 系 统 概述 了 基于 深度 学 习 的 计算 机 视觉 的 相关 理论 和 技术 现状 , 涵盖 了 计算 机 视觉 深度 
学 习 的 主要 问题 ,包括 图 像 分 类 、 图 像 检 索 、 目 标 检 测 、 语 义 分 割 、 相 似 性 学 习 、 图 像 题 注 、 生 
成 模型 、 视 频 分 类 、 平 台 部 署 。 本 书 针对 每 个 问题 介绍 了 常见 的 应 用 场景 、 数 据 集 、 主 要 技术 和 
TensorFlow 框架 下 的 编程 实例 。 通过 阅读 本 书 和 代码 实践 , 读者 可 以 比较 全 面 地 了 解 基于 深度 学 
习 的 计算 机 视觉 的 基础 知识 和 领先 技术 。 


本 书 的 译文 力求 忠实 准确 地 表达 原文 。 相关 术语 的 翻译 参考 了 业内 的 一 般 用 语 。 由 于 计算 机 
视觉 深度 学 习 领 域 的 发 展 日 新 月 异 , 新 技术 和 新 术语 也 层出不穷 。 对 新 术语 或 读者 可 能 较 陌生 的 
术语 ,译文 中 给 出 了 相应 的 英文 术语 对 照 。 另 外 ， 书 中 诸如 “当前 最 好 的 技术 ”等 说 法 ,会 随 着 
新 技术 的 出 现 而 发 生变 化 。 读 者 应 持续 关注 最 新 的 研究 进展 。 


本 书 翻 译 过 程 中 ,图 灵 公 司 的 杨 琳 编辑 审阅 了 全 部 书稿 ,提出 了 许多 宝贵 意见 ,对 本 书 质量 
的 提高 有 很 大 帮助 ， 在 此 表示 衷心 的 感谢 。 

由 于 译 者 水 平 所 限 ， 书 中 难免 有 错误 和 不 当 之 处 ， 欢 迎 专家 和 读者 批评 指正 。 邮 件 请 发 至 
baiyong666ai@qq.com。 男 外 ， 读 者 可 加 入 本 书 的 QQ 交流 群 ( 群 号 : 891515375 )。 
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深度 学 习 正 在 使 人 工 智能 发 生 革 命 性 的 变化 。 在 未 来 的 几 十 年 里 , 它 将 彻底 改变 世界 。 在 深 
度 学 习 的 推动 下 ， 人 工 智能 将 有 望 与 工业 革命 相提并论 。 这 让 人 们 对 未 来 充满 兴奋 ,同时 也 感到 
恺 惧 。 但 实际 上 ,就 像 工 业 革命 和 机 械 一 样 , 深 度 学 习 将 提高 工业 生产 能 力 并 显著 改善 人 类 生活 
水 平 。 它 不 会 取代 人 们 的 工作 ， 而 会 创造 更 多 更 高 水 平 的 工作 机 会 。 这 就 是 本 书 如 此 重要 和 及 时 
的 原因 。 本 书 将 介绍 基于 深度 学 习 的 计算 机 视觉 , 包括 它 的 功能 和 众多 应 用 ， 从 而 为 读者 面 对 未 
来 十 年 里 将 呈 指 数 级 增长 的 新 兴 产 业 打 下 基础 。 


拉 贾 林 加 帕 ' 尚 称 加 马 尼 是 一 位 出 色 的 研究 人 员 。 我 曾 与 他 在 几 个 计算 机 视觉 项 目 中 合作 过 。 
他 作为 首席 工程 师 设 计 并 交付 了 一 个 用 于 时 尚 搜索 的 复杂 计算 机 视觉 和 深度 学 习 系 统 , 该 系统 的 
实际 部 署 取得 了 巨大 成 功 。 他 的 强项 之 一 是 , 能 够 针对 复杂 问题 进行 最 先进 的 研究 并 将 其 应 用 于 
现实 世界 。 正 如 本 书展 示 的 那样 ， 他 还 可 以 分 解 复杂 的 想法 并 用 简单 的 术语 来 解释 。 拉 贾 抱 负 远 
大 , 拥有 职业 道德 。 在 本 书 中 ,他 对 使 用 深度 学 习 的 计算 机 视觉 现状 进行 了 很 好 的 概述 ,这 是 许 
多 人 望尘莫及 的 。 本 书 是 拉 贾 的 一 项 伟大 成 就 , 我 相信 读者 在 未 来 几 年 中 都 会 从 本 书 中 获得 阅读 
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本 书面 向 想 要 掌握 基于 深度 学 习 的 计算 机 视觉 技术 的 读者 ,帮助 他 们 实现 诸多 应 用 。 本 书 将 
为 读者 研发 基于 计算 机 视觉 的 产品 提供 相应 的 工具 和 技术 。 为 此 , 全 书 采取 理论 讲解 和 实例 介绍 
相 结 合 的 写作 方式 。 


读者 对 象 


本 书 适合 有 意 探究 如 何 将 深度 学 习 应 用 于 计算 机 视觉 问题 ( 如 分 类 、 检 测 、 检 索 、 分 割 、 
生成 、 题 注 和 视频 分 类 ) 的 读者 ， 以 及 希望 了 解 如 何在 各 种 限制 条 件 ( 如 较 少 的 数据 、 不 平衡 
的 类 别 、 噪 声 ) 下 实现 较 高 准确 性 的 读者 。 本 书 还 适合 想 知道 如 何在 各 种 平台 ( AWS、Google 
Cloud、Raspberry Pi 和 手机 ) 上 部 署 经 过 训练 的 模型 的 读者 。 通 过 学 习 本 书 ， 读 者 应 该 能 够 针 
对 人 物 检 测 、 人 脸 识 别 、 产 品 搜索 、 医 学 图 像 分 割 、 图 像 生成 、 图 像 题 注 、 视 频 分 类 等 问题 开 
发 相应 的 代码 。 


本 书 内 容 


第 1 章 “ 入 门 ”"”， 介 绍 深 度 学 习 的 基础 知识 以 及 相关 术语 。 这 一 章 将 指导 读者 安装 必要 的 软 
件 包 ， 为 学 习 后 续 章节 做 准备 。 

第 2 章 “ 图 像 分 类 ”， 讨 论 图 像 分 类 问题 ， 即 如 何 将 图 像 作为 一 个 整体 打 标 签 。 我 们 将 学 习 
图 像 分 类 技术 , 并 训练 一 个 用 于 宠物 分 类 的 深度 学 习 模型 。 此 外 还 会 学 习 提高 图 像 分 类 准确 性 的 
方法 ， 并 深入 探究 各 种 先进 的 图 像 分 类 架构 。 

第 3 章 “ 图 像 检 索 ”， 介 绍 图 像 深层 特征 和 图 像 检 索 。 我 们 将 学 习 获 取 模 型 可 视 化 、 视 觉 特 
征 以 及 使 用 TensorFlow Serving 进行 推断 的 各 种 方法 ， 并 且 使 用 视觉 特征 进行 产品 检索 。 

第 4 章 “ 目 标 检测 ”， 讨 论 如 何 检测 图 像 中 的 目标 对 象 。 我 们 将 学 习 目 标 检 测 的 各 种 技术 ， 
并 将 其 应 用 于 行人 检测 。 这 一 章 将 使 用 与 物体 检测 相关 的 TensorFlow API。 

第 5 章 “ 语 义 分 割 ”"， 介 绍 像素 级 图 像 分 割 。 我 们 将 学 习 图 像 分 割 技术 ， 并 训练 一 个 医学 图 
像 分 割 模型 。 










































































第 6 章 “ 相 似 性 学 习 ”， 讲 述 相 似 性 学 习 。 我 们 将 学 习 相 似 性 匹配 以 及 如 何 训练 人 脸 识别 模 
型 。 这 一 章 将 展示 一 个 训练 人 脸 关 键 点 的 模型 。 

第 7 章 “ 图 像 题 注 ” ， 介 绍 如 何 为 图 像 生成 或 选择 题 注 。 我 们 将 学 习 自 然 语言 处 理 技术 以 及 
如 何 使 用 这 些 技术 为 图 像 生成 题 注 。 

第 8 章 “ 生 成 模型 "， 讨 论 如 何 为 各 种 目的 生成 合成 图 像 。 我 们 将 学 习 什么 是 生成 模型 并 将 
其 用 于 图 像 生成 应 用 程序 ， 如 风格 迁移 、 训 练 数据 等 。 

第 9 童 “视频 分 类 ”， 介 绍 面 向 视频 数据 的 计算 机 视觉 分 类 技术 。 我 们 将 了 解 解决 视频 问题 
与 图 像 问题 的 主要 区 别 以 及 如 何 实现 视频 分 类 技术 。 


第 10 章 “部 署 "， 讨论 深度 学 习 模 型 的 部 署 步 骤 。 我 们 将 学 习 如 何 部 署 训练 好 的 模型 并 针对 
各 种 平台 优化 执行 速度 。 


如 何 充分 利用 本 书 


本 书 中 的 例子 可 以 在 Windows 、Ubuntu 或 Mac 上 运行 ， 所 有 安装 说 明 都 包含 在 内 。Python 
和 机 咒 学 习 的 基础 知识 是 必需 的 。 读 者 最 好 有 GPU 硬件 ， 但 这 不 是 必需 的 。 


下 载 示例 代码 文件 

你 可 以 从 www.packtpub.com 上 的 账户 下 载 本 书 的 示例 代码 文件 。 如 果 你 在 其 他 地 方 购买 了 
本 书 ， 可 以 访问 www.packtpub.com/support 并 注册 ， 文 件 会 直接 通过 电子 邮件 发 送 给 你 。 

你 可 以 按照 以 下 步骤 下 载 代码 文件 : 

(1) 登录 或 注册 www.packtpub.com; 

(2) 选择 SUPPORT 选项 卡 ; 

(3) 点 击 Code Downloads & Errata; 

(4) 在 Search 框 中 输入 书 名 ， 然 后 按照 屏幕 上 的 说 明 进 行 操作 。 

下 载 文 件 后 ， 确 保 使 用 最 新 版 本 的 软件 来 解压 缩 : 


口 适用 于 Windows 的 WinRAR/7-Zip 
口 适用 于 Mac 的 Zipeg/iZip/UnRarX 
口 适用 于 Linux 的 7-Zip/PeaZip 










































































本 书 的 代码 包 也 托管 在 GitHub 上 : https://github.com/PacktPublishing/Deep-Learning-for- 
Computer-Vision。 我 们 在 https://github.com/PacktPublishing/ 上 还 提供 了 许多 其 他 图 书 和 视频 的 代 
伍 包 0 去 看 一 下 吧 ! 








排版 约定 
本 书 使 用 了 不 同 的 文本 样式 来 区 分 不 同 种 类 的 信息 。 
正文 中 的 代码 采用 以 下 样式 :“ 请 注意 ， 图 形 是 使 用 summary_writer 写 和 的。 
代码 块 的 样式 如 下 
merged_summary_operation = tf.summary.merge_all() 


train_summary_writer = tf.summary.FileWriter('/tmp/train', session.graph) 
test_summary_writer = tf.summary.FileWriter('/tmp/test') 


命令 行 输 入 或 输出 的 样式 如 下 : 


wget http://www.robots.ox.ac.uk/~vgg/data/pets/data/images.tar.gz 
wget http://www.robots.ox.ac.uk/~vgg/data/pets/data/annotations.tar.gz 


黑体 字 : 表示 本 书 中 出 现 的 新 术语 或 重要 的 词语 。 屏幕 菜单 或 对 话 框 中 的 文字 按照 如 下 样式 
显示 :“ 完 成 后 ， 点 击 Actions|Instance State|Terminate 终止 实例 。” 












































0 警告 或 重要 说 明 如 此 图 标 所 示 。 


és 提示 和 技巧 如 此 图 标 所 示 。 


保持 联系 

我 们 欢迎 读者 反馈 。 

一 般 反 馈 : 发 送 电 子 邮 件 到 feedback@packtpub.com 并 在 消息 主题 中 提 及 书 名 。 如 果 你 对 本 
书 的 任何 方面 有 疑问 ， 请 发 送 电子 邮件 至 questions@packtpub.com。 


勘误 : 尽管 我 们 已 经 尽 全 力 确保 内 容 的 准确 性 , 但 错误 在 所 难免 。 如 果 你 在 本 书 中 发 现 错误 ， 
请 将 此 报告 给 我 们 ， 我 们 将 不 胜 感激 。 请 访问 www.packtpub.com/submit-errata， 选 择 你 的 图 书 ， 
单 击 勘 误 提交 表单 链接 ， 然 后 输入 详细 信息 。” 
反 盗 版 : 如 果 你 在 互联 网 上 以 任何 形式 发 现 我 们 作品 的 任何 非法 复制 品 ， 请 将 网 址 或 网 站 
名 称 提 供给 我 们 , 我 们 将 不 胜 感激 。 请 通过 copyright@packtpub.com 与 我 们 联系 并 提供 材料 的 
链接 。 


成 为 作者 : 如 果 你 有 专业 知识 并 且 对 撰写 图 书 感 兴趣 ， 请 访问 authors.packtpub.com。 












































Q@ 本 书 中 文 版 勘误 请 到 http://ituring.cn/book/2396 查 看 和 提交 。 一 一 编者 注 























评论 
请 留 下 评论 。 既 然 你 阅读 并 使 用 了 本 书 ， 为 什么 不 在 购买 的 网 站 上 留 下 评论 呢 ? 这 样 ， 潜 在 





读者 就 可 以 看 到 并 根据 你 的 客观 意见 做 出 购买 决定 , 我 们 可 以 了 解 你 对 我 们 产品 的 看 法 , 作者 也 
可 以 看 到 你 的 反馈 。 谢 谢 ! 


有 关 Packt 的 更 多 信息 ， 请 访问 packtpub.com。 
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计算 机 视觉 是 理解 或 操作 图 像 和 视频 的 科学 。 计 算 机 视觉 有 很 多 应 用 , 包括 自动 驾驶 、 工 业 
检验 和 增强 现实 。 对 于 计算 机 视觉 ， 深 度 学 习 的 使 用 可 以 分 为 多 个 类 别 : 图 像 和 视频 中 的 分 类 、 
检测 、 分 割 和 生成 。 在 本 书 中 ,我们 将 学 习 如 何 为 计算 机 视觉 应 用 训练 深度 学 习 模 型 ， 并 将 其 部 
署 在 多 个 平台 上 。TensorFlow 将 贯穿 全 书 ， 这 是 一 个 流行 的 用 于 深度 学 习 的 Python 库 ， 我 们 将 
用 它 来 实现 示例 。 

本 章 涉 及 以 下 主题 : 

口 深度 学 习 的 基础 知识 和 词汇 ; 

口 深度 学 习 与 计算 机 视觉 如 何 结合 ; 

口 建立 本 书 中 示例 所 需 的 开发 环境 ; 

口 感受 TensorFlow 及 其 强大 的 工具 ， 如 TensorBoard 和 TensorFlow Serving。 
































1.1 理解 深度 学 习 


计算 机 视觉 是 一 个 有 着 悠久 历史 的 领域 。 随 着 深度 学 习 的 出 现 ,计算 机 视觉 已 被 证 明 可 用 于 
各 种 应 用 。 深 度 学 习 集 合 了 人 工 神经 网 络 (artificial neural network，ANN ) 的 技术 ， 后 者 是 机 器 
学 习 的 一 个 分 支 。 人 工 神经 网 络 以 人 脑 作为 模型 的 基础 ， 其 中 有 一 些 节点 相互 连接 并 相互 传递 信 
息 。 在 下 面 几 节 中 ， 我 们 将 通过 理解 常用 的 基本 术语 来 详细 讨论 深度 学 习 的 工作 原理 。 
































1.1.1 感知 机 


人 工 神经 元 又 称 感知 机 ( perceptron )， 它 接收 若干 输入 并 执行 加 权 求 和 以 产生 输出 。 感 知 机 
的 权重 在 训练 过 程 中 基于 训练 数据 确定 。 图 1-1 是 感知 机 的 图 示 。 














加 权 求 和 





单位 阶 跃 函数 

















图 1-1 


如 图 1-1 所 示 ， 多 个 输入 被 加 权 并 相 加 。 在 这 个 例子 中 ， 总 和 会 经 过 一 个 单位 阶 由 函 数 用 于 
二 分 类 问题 ,该 感知 机 只 能 通过 从 例子 中 学 习 权重 来 学 习 简 单 的 功能 ,学 习 权 重 的 过 程 称 为 训练 。 
感知 机 的 训练 可 以 通过 基于 梯度 的 方法 完成 ，1.1.4 节 将 详细 解释 。 感 知 机 的 输出 可 以 经 过 激活 
函数 或 转移 函数 来 传递 ， 这 将 在 下 一 记 中 解释 。 












































1.1.2 ”激活 函数 


激活 函数 (activation function ) 使 神经 网 络 具 有 非 线 性 。 它 决定 感知 机 是 否 应 被 激发 。 在 训 
练 期 间 ，, 激活 函数 在 调整 梯度 方面 发 挥 着 重要 作用 。 激 活 函 数 能 以 更 高 的 幅度 衰减 梯度 值 ， 如 下 
面 介绍 的 sigmoig。 激 活 函 数 这 种 非 线性 赋予 了 深度 网 络 学 习 复杂 函数 的 能 力 。 除 了 在 0 点 的 
修正 单元 , 大 多 数 激活 函数 都 是 连续 函数 和 可 微 函 数 。 连 续 函 数 输 入 中 的 每 个 小 变化 都 会 引起 输 
出 中 的 小 变化 。 可 微 函 数 在 定义 域 中 的 每 个 点 都 存在 导数 。 


为 了 训练 神经 网 络 ， 激 活 函 数 必须 是 可 微 的 。 下 面 介绍 一 些 激活 函数 。 
































如 果 你 尚 不 明和 白 “连续 ” 和 “可 微 ” 的 意思 ， 也 ,不 用 担心 。 在 随后 的 章节 中 ， 这 
些 概念 会 变 得 更 加 清 果 。 
1. sigmoid 


sigmoid 可 以 被 看 作 平滑 的 阶 跃 函数 ， 因 此 可 微 。sigmoia 可 用 于 将 任何 值 转换 为 概率 ， 
并 可 用 于 二 分 类 问题 。 如 图 1-2 所 示 ，sigmoia 将 输入 映射 到 范围 为 0~1 的 值 。 
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图 1-2 

sigmoid 子 数 中 ， 相 对 于 站 值 的 变化 ,了 值 的 变化 更 小 ， 因 此 将 导致 梯度 逐渐 消失 。 经 过 一 
番 学 习 之 后 ， 变 化 可 能 非常 小 。 下 面 将 介绍 另 一 个 激活 函数 tanh。 它 是 sigmoig 的 缩放 版 本 ， 
可 在 一 定 程度 上 避免 梯度 值 消 失 的 问题 。 

2. 双 曲 正切 函数 


双 曲 正切 函数 tanh 是 sigmoia 的 缩放 版 本 。 与 sigmoid 一 样 ， 它 是 平滑 和 可 微 的 。 如 图 1-3 
所 示 ，tanb 将 输入 映射 到 范围 为 -1~ 1 的 值 。 
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它 的 梯度 比 sigmoia 更 稳定 ， 因 此 很 少 引 起 梯度 消失 问题 。sigmoid 和 tanh 这 两 个 激活 
函数 都 始终 激发 ， 使 得 相应 的 ANN 很 笨重 。 下 面 将 引入 另外 一 种 激活 函数 ， 即 修正 线性 单元 
( rectified linear unit，ReLU )， 它 可 以 通过 有 时 不 激发 来 避免 这 个 缺陷 。 


3. 修正 线性 单元 


修正 线性 单元 可 以 让 大 数值 通过 , 而 让 一 些 神经 元 处 于 不 会 激发 的 陈旧 态 。 这 为 神经 网 络 增 
加 了 稀疏 性 这 个 好 的 特性 。 如 图 1-4 所 示 ，ReLU 将 输入 x 映射 到 max(0, x)， 即 将 负 的 输入 映射 
为 0， 而 正 的 输入 没有 任何 改变 地 输出 。 
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图 1-4 
由 于 ReLU 不 是 一 直 处 在 激发 状态 ， 因 此 可 以 加 快 训练 速度 。 同 时 ， 由 于 该 函数 很 简单 ， 


此 计算 成 本 也 最 低 。 选择 激活 函数 非常 依赖 于 应 用 程序 。 尽管 如 此 ,ReLU 面 对 大 多 数 问 题 时 都 可 
以 良好 地 工作 。 在 下 一 节 中 , 我 们 将 通过 学 习 如 何 将 多 个 感知 机 堆 受 在 一 起 来 学 习 更 复杂 的 函数 。 









































1.1.3 人工 神经 网 络 


人 工 神 经 网 络 (ANN ) 是 感知 机 和 激活 函数 的 集合 。 多 个 感知 机 相互 连接 ,从 而 形成 隐藏 层 
或 隐藏 单元 。 隐 藏 单 元 形成 非 线性 基础 ， 将 输入 层 映 射 到 低 维 空间 中 的 输出 层 ， 这 也 称 为 ANN。 
ANN 是 从 输入 到 输出 的 映射 。 该 映射 通过 用 带 偏 差 的 输入 加 权 来 计算 。 这些 权 重 值 、 偏 置 (bias ) 
值 以 及 架构 统称 为 模型 。 


权重 值 和 偏 置 值 由 训练 过 程 确定 。 训 练 开始 时 ,用 随机 值 初始 化 模型 值 。 误 差 是 通过 使 用 损 
失 函 数 (loss function ) 比较 观测 值 与 真实 值 来 计算 的 。 根 据 计算 出 的 损失 ， 在 每 一 步调 整 权重 。 
当 误 差 不 能 进一步 减 小 时 ， 就 停止 训练 。 训 练 过 程 在 训练 期 间 学 习 特 征 。 这 些 特征 比 原始 图 像 有 






















































































更 好 的 表征 。 图 1-5 是 人 工 神经 网 络 〈 多 层 感 知 机 ) 的 图 示 。 
































x 的 几 个 输入 通过 感知 机 组 成 的 隐藏 层 传递 ， 并 进行 求 和 以 得 到 输出 。 万 能 和 逼近 定理 
( universal approximation theorem ) 表明 : 这 样 一 个 神经 网 络 可 以 和 逼 近 任何 函数 。 隐 藏 层 也 可 以 称 
为 密集 层 。 每 一 层 都 可 以 具有 一 个 上 一 节 中 介绍 的 激活 函数 。 隐 藏 层 和 感知 机 的 数量 可 以 根据 具 
体 问 题 来 选择 。 还 有 一 些 因素 使 这 种 多 层 感知 机 适用 于 多 分 类 问题 。 多 分 类 问题 可 尝试 区 分 十 多 
个 类 别 。 下 面 将 探讨 这 些 术 语 。 


1. 独 热 编码 


在 分 类 问题 中 ， 独 热 编 码 ( one-hot encoding ) 是 一 种 表示 目标 变量 或 类 别 的 方法 。 目 标 变量 
可 以 由 字符 串 标 签 转换 为 独 热 编 码 向 量 。 一 个 独 热身 量 在 目标 类 别 的 索引 处 填充 1， 在 其 他 地 方 
填充 0。 例 如 ， 如 果 目 标 类 别 是 猫 和 狗 ， 它 们 可 以 分 别 用 [1, 0] 和 [0, 1] 表 示 。 对 于 1000 个 类 别 ， 
独 热 编码 向 量 的 大 小 为 1000 个 整数 ， 其 中 除 一 个 数 为 1 外 全 为 0。 独 热 编码 不 对 目标 变量 的 相 
似 性 做 假设 。 下 面 将 解释 独 热 编码 与 softmax 的 组 合 ， 而 这 使 ANN 多 分 类 成 为 可 能 。 

2. softmax 

softmax 是 迫使 神经 网 络 输出 总 和 为 1 的 一 种 方法 。 因 此 ，softmax 函数 的 输出 值 可 以 视 
为 概率 分 布 的 一 部 分 。 这 在 多 分 类 问题 中 很 有 用 。softmax 是 一 种 特殊 的 激活 函数 ， 其 输出 总 和 
为 1。 它 通过 将 输出 除 以 所 有 值 的 总 和 将 输出 转换 为 概率 。 可 以 通过 计算 softmax 概率 和 独 热 编 
码 之 间 的 欧 几 里 得 距离 来 解决 优化 问题 。 但 用 于 优化 问题 的 一 个 更 好 的 代价 函数 是 下 面 的 交叉 炉 。 

3. 交叉 业 

交叉 炉 (cross-entropy ) 可 用 于 比较 softmax 输出 和 独 热 编码 输出 之 间 的 距离 。 交 又 炉 是 一 
种 损失 函数 ， 其 误差 必须 最 小 化 。 神 经 网 络 估 计 给 定数 据 映射 到 每 个 类 别 的 概率 。 所 映射 的 概率 
必须 在 正确 的 目标 标签 上 取得 最 大 值 。 交 叉 精 是 负 对 数 概率 的 总 和 。 这 里 使 用 对 数 是 为 了 提高 数 
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字 值 的 稳定 性 。 最 大 化 函数 值 等 同 于 最 小 化 相同 函数 的 负 值 。 下 面 将 介绍 以 下 避免 ANN 过 拟 合 
的 正则 化 方法 。 

口 丢弃 

口 批 归 一 化 

口 L1 和 LIL2 正 则 化 


4. 丢弃 


丢弃 ( dropout ) 是 避免 过 拟 合 ANN 的 一 种 正则 化 神经 网 络 的 有 效 方法 。 如 图 1-6 所 示 ， 在 
训练 期 间 ， 丢 弃 层 通过 随机 移 除 部 分 隐 蕊 单元 来 消减 神经 网 络 。 









































示 准 神经 网 络 





























图 1-6 
注意 神经 元 是 如 何 随 机 训练 的 ,丢弃 也 是 组 合 多 个 神经 网 络 的 有 效 方式 。 对 于 每 个 训练 案例 ， 
我 们 随机 选择 一 些 隐藏 单元 ， 以 便 针 对 每 个 案例 得 到 不 同 的 结构 。 这 是 装 袋 ( bagging ) 和 模型 
平均 (model averaging ) 的 极端 情况 。 但 是 ， 在 推断 过 程 中 ， 不 应 使 用 丢弃 层 ， 因 为 没有 必要 。 
5. 批 归 一 化 
批 归 一 化 (batch normalization， 或 称 batch-norm ) 提高 了 神经 网 络 训练 的 稳定 性 和 性 能 。 它 
对 一 层 的 输出 进行 零 均 值 和 标准 差 为 1 的 归 一 化 。 这 可 以 减少 过 拟 合 , 并 使 网 络 训练 更 快 。 它 在 
训练 复杂 神经 网 络 中 非常 有 用 。 
6.L1 和 上 L2 正则 化 


L1 惩罚 权重 的 绝对 值 并 使 权重 趋 于 为 零 。L2 惩罚 权重 的 平方 值 ， 并 在 训练 期 间 倾向 于 使 权 
重 更 小 。 这 两 种 正则 化 方法 都 假设 权重 较 小 的 模型 更 好 。 

































































1.1.4 训练 神经 网 络 


因为 ANN 包含 若干 个 参数 要 优化 ， 所 以 训练 它 颇 有 难度 。 更 新 权重 的 过 程 称 为 反 向 传播 
( backpropagation )。 最 小 化 错误 的 过 程 称 为 优化 。 下 面 将 详细 介绍 它们 。 


1. 反 向 传播 
反 向 传播 算法 通常 用 于 训练 ANN。 如 图 1-7 所 示 ， 该 算法 根据 计算 出 的 误差 向 后 更 新 权重 。 























图 1-7 
计算 出 误差 后 ， 可 以 使 用 梯度 下 降 计 算 权 重 更 新 ， 如 下 所 述 。 
2. 梯度 下 降 


梯度 下 降 算 法 执行 多 维度 优化 。 目 标 是 达到 全 局 最 大 值 。 梯 度 下 降 是 许多 机 器 学 习 模型 中 流 
行 的 优化 技术 。 它 用 于 改进 或 优化 模型 预测 。 梯 度 下 降 的 一 种 实现 称 为 随机 梯度 下 降 (stochastic 
gradient descent，SGD )， 它 在 神经 网 络 中 变 得 越 来 越 流 行 。 优 化 包括 计算 误差 值 并 更 新 权重 以 实 
现 最 小 误差 。 找 到 最 小 值 的 方向 是 损失 函数 梯度 的 负 值 。 图 1-8 定性 地 显示 了 梯度 下 降 过 程 。 
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学 习 速 率 决定 了 每 个 步骤 的 大 小 。 请 注意 , 具有 非 线性 激活 函数 的 ANN 将 具有 局 部 最 小 值 。 
SGD 在 实践 上 可 以 更 好 地 优化 非 凸 的 代价 函数 。 


3. 随机 梯度 下 降 


除了 每 次 仅 用 部 分 样本 数据 进行 训练 以 外 ，SGD 与 梯度 下 降 相 同 。 相 应 的 参数 称 为 小 批 次 
规模 ( mini-batch size )。 理 论 上 ， 即 使 只 有 一 个 样本 也 可 以 用 于 训练 。 在 实践 中 ,最 好 尝试 不 同 个 
数 的 样本 数据 。 在 下 一 节 中 ， 我 们 将 讨论 卷 积 神经 网 络 ， 它 能 比 标准 ANN 更 好 地 处 理 图 像 数 据 。 
































1.1.5 ”尝试 TensorFlow 游乐 场 


TensorFlow 游乐 场 (playground ) 是 神经 网 络 的 交互 式 可 视 化 平台 。 访 问 playground.tensorflow.org 
网 站 ， 通 过 更 改 参 数 来 查看 先前 提 到 的 术语 是 如 何 协同 工作 的 。 图 1-9 是 TensorFlow 游乐 场 的 截 
图 。 


4 Epoch Learning rate Activatior Regularization Regularization rate Problem type 
Pl 
000,000 0.03 Tanh None > 0 ” Classification 
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Test loss 0.498 


ant to feed in? Training loss 0.506 
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图 1-9 


如 图 1-9 所 示 ， 可 以 改变 学 习 速 率 、 激 活 函数 、 正 则 化 、 隐 藏 单元 和 各 个 层 ， 看 看 会 如 何 影 
响 训练 过 程 。 我 们 可 以 花 一 些 时 间 调 整 参数 ， 以 直观 地 了 解 神经 网 络 是 怎样 处 理 各 种 数据 的 。 





























1.1.6“ 卷 积 神经 网 络 


卷 积 神经 网 络 ( convolutional neural network，CNN ) 类 似 于 前 面 描述 的 神经 网 络 。CNN 具 


1.1 理解 深度 学 习 9 





有 权重 、 偏 置 项 和 经 过 非 线 性 激活 函数 的 输出 。 一 般 的 神经 网 络 接收 输入 后 ,神经 元 全 连接 到 下 ee 
一 层 。 同 一 层 内 的 神经 元 不 共享 任何 连接 。 如 果 对 图 像 使 用 一 般 的 神经 网 络 , 由 于 神经 元 数量 庞 

大 , 它们 的 规模 会 非常 大 ， 导 致 过 拟 合 。 因 为 图 像 规模 很 大 ， 所 以 不 能 将 这 种 神经 网 络 直接 用 于 

图 像 。 增 加 模型 的 规模 需要 大 量 的 神经 元 。 可 以 认为 图 像 是 具有 高 度 、 宽 度 和 深度 尺寸 的 容积 

(volume )。 深 度 是 图 像 的 通道 ， 即 红色 、 蓝 色 和 绿色 。CNN 的 神经 元 以 容积 方式 排列 以 利用 容 

积 的 优势 。 每 个 层 都 将 输入 容积 转换 为 输出 容积 ， 如 图 1-10 所 示 。 

































































图 1-10 


卷 积 神经 网 络 通过 变换 对 编码 滤波 。 学 习 到 的 滤波 咒 可 以 检测 图 像 中 的 特征 或 模式 。 层 越 
深 ， 模 式 越 抽象 。 一 些 分 析 表 明 ， 这 些 层 具有 检测 边缘 、 角 落 和 模式 的 能 力 。CNN 各 层 中 的 可 
学 习 参 数 比 上 一 广 中 描述 的 密集 层 要 少 。 


1. 核 
核 (kernel ) 是 用 于 卷 积 图 像 的 参数 卷 积 层 。 卷 积 操作 如 图 1-11 所 示 。 


























下 一 个 像素 值 
(目的 像素 ) 











图 1-11 





10 第 1 章 入 门 








核 有 两 个 参数 ， 称 为 步 幅 ( stride ) 和 尺寸 ( size )。 尺 十 可 以 是 矩形 的 任何 一 维 。 步 幅 是 
次 移动 的 像素 数量 。 步 幅 长 度 为 1 时 生成 几乎 相同 尺寸 的 图 像 ， 而 步 幅 长 度 为 2 时 生成 的 图 像 
有 原本 尺寸 的 一 半 。 人 额外 填充 (padding ) 图 像 将 有 助 于 实现 相同 尺寸 的 输入 。 

2. 最 大 池 化 

池 化 层 位 于 卷 积 层 之 间 。 池 化 层 通过 采样 在 层 间 减 小 图 像 大 小 。 最 大 池 化 (max pooling ) 的 
采样 通过 在 窗口 中 选择 最 大 值 来 完成 。 平 均 池 化 (average pooling ) 对 窗口 内 的 值 做 平均 运算 。 
池 化 也 是 一 种 正则 化 技术 ,可 以 避免 过 拟 合 。 池 化 在 特征 的 所 有 通道 上 进行 。 池 化 也 可 以 以 不 同 
的 步 幅 进行 。 
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窗口 的 大 小 是 CNN 感受 野 (receptive field ) 的 一 个 度量 。 图 1-12 显示 了 最 大 池 化 的 示例 。 








单个 深度 图 像 切 片 
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图 1-12 


CNN 是 所 有 计算 机 视觉 深度 学 习 模 型 中 最 重要 的 组 成 部 分 。 毫 不 夸张 地 说 ， 没 有 CNN, 任 
何 计算 机 都 不 可 能 有 视觉 。 在 接 下 来 的 几 节 中， 我 们 将 讨论 几 个 可 用 于 一 些 应 用 的 先进 层 设计 。 








说 明 : 可 访问 https://www.youtube.com/watch?v=jajksuQW4mc， 了 解 CNN 和 最 
大 池 化 操作 的 可 视 化 效果 。 


1.1.7 ”循环 神经 网 络 


循环 神经 网 络 ( recurrent neural network，RNN ) 可 对 序列 信息 建 模 。 它 不 假设 数据 量 很 大 。 
它 从 一 系列 序列 数据 的 先前 数据 输出 中 执行 相同 的 任务 。 这 也 可 以 认为 是 记忆 。RNN 无 法 记 住 
更 长 的 序列 或 时 间 。 它 在 训练 过 程 中 展开 ， 如 图 1-13 所 示 。 
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图 1-13 


由 上 图 可 知 ， 其 操作 步骤 每 次 都 要 展开 和 训练 。 在 反 向 传播 过 程 中 ， 随 着 时 间 的 推移 ， 梯 
度 会 消失 。 为 了 克服 这 个 问题 ， 可 以 使 用 长 短期 记忆 网 络 (long short-term memory，LSTM ) 来 
记 住 更 长 的 时 间 段 。 


1.1.8 长 短期 记忆 网 络 


长 短期 记忆 网 络 可 以 存储 更 长 时 间 的 信息 ， 因 此 它 可 以 高 效 地 获取 长 期 效率 。 图 1-14 说 明 
了 LSTM 单 元 (cell ) 的 设计 。 
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图 1-14 








LSTM 有 几 个 门 : 遗忘 门 、 输 入 门 和 输出 门 。 遗 忘 门 保持 了 以 前 的 状态 信息 。 输 入 门 使 用 输 
人 更 新 当前 状态 。 输 出 门 决定 信息 传递 到 下 一 个 状态 。 遗 忘 和 保留 重要 事物 的 能 力 使 LSTM 能 够 
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在 更 长 的 时 间 内 记 住 信息 。 
你 已 经 学 会 了 贯穿 整 本 书 的 深度 学 习 术 语 。 下 一 节 将 介绍 如 何在 计算 机 视觉 的 背景 下 使 用 深 


1.2 计算 机 视觉 深度 学 习 


计算 机 视觉 能 够 使 计算 机 具有 人 类 视觉 特性 。 计 算 机 的 形式 可 以 是 智能 手机 、 无 人 机 、 闭 路 
电视 、 磁 共振 成 像 扫描 仪 等 ,它们 具有 用 于 感知 的 各 种 传感器 。 传 感 器 以 数字 形式 生成 图 像 ， 然 
后 由 计算 机 进行 解释 。 下 一 节 将 介绍 这 种 智能 的 基本 组 成 部 分 。 使 用 深度 学 习 技术 可 以 有 效 解决 
计算 机 视觉 中 出 现 的 不 同 问 题 。 








1.2.1 分 类 


图 像 分 类 是 以 一 定 的 可 信和 度 用 一 个 对 象 或 概念 对 整 幅 图 像 打 标签 的 任务 。 它 的 应 用 包括 根据 
给 定 人 脸 图 像 进行 性 别 分 类 、 识 别 宠物 类 型 、 标 记 照 片 等 。 图 1-15 是 这 种 分 类 任务 的 一 个 输出 。 
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图 1-15 





第 2 章 将 详细 介绍 可 用 于 分 类 任务 的 方法 ; 在 第 3 章 中 , 我 们 将 使 用 深度 学 习 模 型 的 可 视 化 
分 类 模型 并 检索 出 相似 的 图 像 。 
1.2.2 ”检测 或 定位 与 分 割 


检测 或 定位 是 在 图 像 中 查找 目标 并 使 用 边界 框 对 目标 进行 定位 的 一 项 任务 。 这 项 任务 有 许多 
应 用 ， 例 如 为 自动 区 驶 车 辆 寻找 行人 和 标识 牌 。 图 1-16 是 检测 的 一 个 图 示 。 
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分 类 分 类 + 定位 目标 检测 


























图 1-16 


分 割 是 对 图 像 进行 像素 级 分 类 的 任务 。 它 可 以 精细 化 分 离 对 象 。 这 对 处 理 医学 图 像 和 卫星 图 
像 非常 有 用 。 可 以 在 第 4 章 和 第 5 章 中 找到 更 多 示例 和 解释 。 























1.2.3 ”相似 性 学 习 


相似 性 学 习 〈similarity learning ) 是 学 习 两 幅 图 像 相似 程度 的 过 程 。 可 以 基于 语义 计算 两 幅 
图 像 之 间 相似 度 的 评分 ， 如 图 1-17 所 示 。 


寺中、 污 、 -和 
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好 一 般 差 
图 1-17 





它 有 一 些 应 用 ， 包 括 找到 类 似 的 产品 以 及 执行 人 脸 识 别 。 第 6 章 将 介绍 相似 性 学 习 技 术 。 


1.2.4 图 像 题 注 
图 像 题 注 (image captioning ) 是 用 文本 描述 图 像 的 任务 ， 如 图 1-18 所 示 。 
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无 错误 的 描述 有 小 错误 的 描述 仅 与 图 像 相 关 的 描述 
一 群 年 轻 人 玩 飞 盘 游 戏 。 。 两 名 曲棍球 戴 
运动 员 正在 争夺 冰球 。 时 
* 经 Vinyals 等 人 许可 转载 
图 1-18 
第 7 章 详细 介绍 了 图 像 题 注 技术 。 这 是 一 个 将 自然 语言 处 理 ( natural language processing，NLP ) 











技术 和 计算 机 视觉 技术 相 结合 的 独特 案例 。 
1.2.5 生成 模型 
生成 模型 ( generative model ) 在 生成 图 像 时 非常 有 趣 。 图 1-19 是 风格 迁移 应 用 的 一 个 示例 ， 


其 中 使 月 





日 一 





画图 像 的 内 容 融 合 其 他 























图 像 的 风格 生成 新 的 图 像 。 
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生成 图 像 也 有 其 他 目的 , 例如 新 的 训练 样本 、 超 分 辩 率 图 像 等 。 第 8 章 将 详细 介绍 生成 模型 ol 
技术 。 





1.2.6 ”视频 分 析 


视频 分 析 从 整体 上 处 理 视频 ， 而 不 是 像 以 前 的 例子 中 那样 处 理 图 像 。 它 有 一 些 应 用 ,如 运动 
追踪 、 入 侵 检测 和 监控 摄像 头 。 第 9 章 将 讨论 特定 于 视频 的 应 用 。 时 间 数 据 的 新 维度 带 来 了 许多 
有 趣 的 应 用 。 


在 下 一 节 中 ， 我 们 将 学 习 如 何 建立 开发 环境 。 





























1.3 建立 开发 环境 


本 方 我 们 将 建立 编程 环境 , 这 对 于 本 书 其 余部 分 中 的 示例 非常 有 用 。 我 们 可 以 选择 以 下 操作 
系统 。 

















口 开发 用 操作 系统 (OS ): 如 Mac、Ubuntu 或 Windows。 
口 部 署 用 操作 系统 : 如 Mac、Windows、Android、iOS, 或 Amazon Web Services ( AWS )、 
Google Cloud Platform ( GCP )、Azure 等 云 平台 上 安装 的 Ubuntu、Tegra、Raspberry Pi。 


不 管 哪 种 平台 ,本 书 中 开发 的 所 有 代码 都 应 该 能 顺利 运行 。 在 本 章 中 ,我 们 将 介绍 开发 环境 
的 安装 过 程 。 第 10 章 将 介绍 在 AWS、GCP、Azure、Tegra 和 Raspberry Pi 等 各 种 环境 中 部 署 的 
安装 。 


1.3.1 硬件 和 操作 系统 


对 于 开发 环境 而 言 ， 由 于 训练 的 计算 成 本 非常 高 ， 因 此 需要 具备 大 量 计算 能 力 。Mac 用 户 拥 
有 的 计算 能 力 相 当 有 限 。Windows 和 Ubuntu 用 户 可 以 使 用 更 多 的 处 理 器 和 通用 图 形 处 理 需 
( general purpose-graphics processing unit，GP-GPU ) 来 加 强 他 们 的 开发 环境 ， 这 将 在 下 一 节 中 
解释 。 

通用 图 形 处 理 器 

GP-GPU 是 可 以 加 速 深度 学 习 模型 训练 过 程 的 特殊 硬件 。 因 为 有 成 熟 的 软件 和 社区 支持 ， 所 
以 NVIDIA 公司 提供 的 GP-GPU 在 深度 学 习 训 练 和 部 署 方面 非常 受 欢 迎 。 我 们 可 以 使 用 这 种 
GP-GPU 机 器 加 快 训练 速度 。 我 们 有 很 多 选择 ， 可 以 根据 预算 选择 其 中 一 种 。 选 择 与 GP-GPU 功 
率 匹 配 的 RAM、CPU 和 硬盘 也 很 重要 。 安 装 硬 件 后 ， 必 须 安 装 以 下 驱动 程序 和 库 。 使 用 Mac 或 
使 用 没有 GP-GPU 的 Windows/Ubuntu 的 读者 可 以 跳 过 下 述 安装 。 


以 下 是 建立 环境 所 需 的 库 
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口 CUDA 
口 CUDNN 





e CUDA 


CUDA ( computer unified device architecture ， 计 算 统 一 设备 架构 ) 是 NVIDIA 提供 的 API 层 ， 
它 使 用 GPU 的 并 行 特性 。 安 装 CUDA 后 ， 还 会 安装 硬件 驱动 程序 。 首 先 ， 从 NVIDIA 网 站 下 载 
CUDA 库 。 


阅读 页 面 上 的 说 明 ， 下 载 驱 动 程序 ， 然 后 按照 安装 说 明 进行 操作 。 图 1-20 是 Ubuntu CUDA 
和 安装 说 明 的 屏幕 截图 。 


Select Target Platform @ 


Click on the green buttons that describe your target platform. Only supported platforms will be shown. 


Operating System | winaaws | | Mac Osx | 
Architecture @ 
Version 


Download Installer for Linux Ubuntu 16.04 x86_64 


The base installer is available for download below. 


> Base Installer Download (2.8 KB] 去 


Installation Instructions: 








“sudo dpkg -icuda-repo-ubuntu1604_9.0.176-1_amd64.deb 
“sudo apt-key adv --fetch-keys https://developer.download.nvidia.com/compute/cuda/repos/ubuntu1604/x86_64/7fa2af80.pub” 
“sudo apt-get update. 


Ea 和 到 


“sudo apt-get install cuda 


Other installation options are available in the form of meta-packages. For example, to install all the library packages, replace “cuda” with the 
“cuda-libraries-9-0" meta package. For more information on all the available meta packages click here. 











The CUDA Toolkit contains Open-Source Software. The source code can be found here. 
The checksums for the installer and patches can be found in Installer Checksums. 
For further information, see the Installation Guide for Linux and the CUDA Quick Start Guide. 




















图 1-20 


装 需 要 的 cuda 驱动 程序 和 其 他 CUDA API。 


EE 
沪 
2 
由 


可 以 通过 在 命令 提示 符 下 键入 nvidia-smi， 来 检查 驱动 程序 是 否 安 装 正确 。 
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e CUDNN 


CUDNN ( CUDA deep neural network ) 库 为 深度 学 习 算 法 提供 原 语 。 这 个 软件 包 是 由 NVIDIA 
提供 的 , 因此 它 的 硬件 经 过 高 度 优化 , 运行 速度 更 快 。 软 件 包 中 提供 了 几 个 标准 的 次 度 学 习 例 程 。 
这 些 软 件 包 由 著名 的 深度 学 习 库 ( 如 TensorFlow、Caffe 等 ) 使 用 。 在 下 一 节 中 ， 提 供 了 有 关 安 
装 CUDNN 的 说 明 。 你 可 以 从 NVIDIA 网 站 下 载 CUDNN。 














( 届 用 户 账户 是 必需 的 (免费 注册 )。 





将 相关 文件 复制 到 CUDA 文件 夹 , 使 其 更 快 地 在 GPU 上 运行 。 我们 不 会 直接 使 用 CUDA 和 
CUDNN 库 。TensorFlow 使 用 优化 例 程 让 它们 在 GP-GPU 上 工作 。 


1.3.2 ”安装 软件 包 


训练 深度 学 习 模 型 需要 几 个 库 。 我 们 将 安装 以 下 库 并 介绍 选择 以 下 软件 包 的 原因 。 


口 Python 和 其 他 依赖 
DQ OpenCV 

口 TensorFlow 

口 Keras 

















1. Python 

Python 是 任何 数据 科学 应 用 事实 上 的 选择 。 它 拥有 最 大 的 社区 和 库 的 支持 生态 系统 。 用 于 Python 
的 TensorFlow API 是 最 完整 的 ， 因 此 Python 是 编程 语言 的 首选 。Python 有 两 个 版 本 : Python 2.x 
和 Python 3.x。 本 书 中 将 讨论 Python 3.x。 这 个 选择 有 以 下 三 个 原因 
口 Python 2.x 的 开发 将 在 2020 年 停止 ， 因 此 Python 3.x 是 Python 的 未 来 ; 
口 Python 3x 避免 了 原始 实现 中 的 许多 设计 缺陷 ; 
口 与 普遍 的 看 法 相反 ，Python 3.x 拥有 与 Python 2.x 一 样 多 的 数据 科学 支持 库 。 

我 们 将 在 本 书 中 使 用 Python 版 本 3。 根 据 操作 系统 ， 转 到 python.org 网 站 并 下 载 版 本 3。 按 
照 下 载 链接 中 给 出 的 步骤 安装 Python。 安装 Python 之 后 ,必须 安装 pip3 以 便 安装 Python 包 。 然 
后 通过 输入 以 下 命令 安装 几 个 Python 软件 包 ， 就 可 以 安装 OpenCV 和 TensorFlow 了 。 


sudo pip3 install numpy scipy scikit-learn pillow h5py 
前 面 安装 的 软件 包 的 描述 如 下 。 


口 NumPy 是 一 个 高 度 优化 的 数值 计算 软件 包 。 它 具 有 强大 的 N 维 数组 对 象 包 , 而 且 NumPy 
库 的 矩阵 运算 对 速度 进行 了 高 度 优化 。 图 像 可 以 存储 为 三 维 的 numpy 对 象 。 
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口 SciPy 有 几 个 用 于 科学 和 工程 计算 的 例 程 。 本 书后 面 将 使 用 它 的 一 些 优化 包 。 

D scikit-learn 是 一 个 机 器 学 习 库 ， 我 们 将 使 用 它 的 许多 辅助 函数 。 

口 Pillow 对 图 像 加 载 和 基本 操作 非常 有 用 。 

D H5py 包 是 HDF5S 二 进 制 数据 格式 的 Python 接口 。 这 是 存储 使 用 Keras 训练 模型 的 格式 。 


























2. OpenCV 


OpenCV (open computer vision ) 是 一 个 著名 的 计算 机 视觉 库 。 这 个 库 中 有 一 些 非常 有 用 的 
图 像 处 理 例 程 。 以 下 是 在 Ubuntu 中 安装 OpenCYV 的 步 又， 


sudo apt-get install Python-opencv 


可 以 在 https:/opencv.org/ 上 找到 其 他 操作 系统 安装 的 相似 步骤 。OpenCV 是 跨 平台 的 ， 并 针 
对 CPU 密集 型 应 用 进行 了 优化 。 它 具有 多 种 编程 语言 的 接口 , 在 Windows、Ubuntu 和 Mac 上 都 
有 文 持 。 


3. TensorFlow 库 


TensorFlow 是 开发 和 部 署 深度 学 习 模 型 的 开源 库 。TensorFlow 使 用 计算 图 进行 数据 流 和 数值 
计算 。 换 名 话说， 数据 或 张 量 ( tensor ) 在 图 中 流动 ， 因 此 称 为 TensorFlow。 该 图 具有 可 以 进行 
任何 数值 计算 的 节点 ， 因 此 适用 于 深度 学 习 操 作 。 它 为 各 种 平台 和 硬件 提供 一 致 的 API。 
TensorFlow 在 后 端 处 理 规模 化 和 优化 的 所 有 复杂 性 。 它 最 初 是 为 Google 的 研究 而 开发 的 。 它 是 
最 著名 的 深度 学 习 库 ， 拥 有 大 型 社区 ， 并 配 有 可 视 化 和 生产 部 署 工具 。 





















































@ 安装 TensorFlow 


使 用 以 下 命令 ， 为 CPU 使 用 pip3 安装 TensorFlow: 


Sudo pip3 install tensorflow 


如 果 你 正在 使 用 GPU 硬件 并 安装 了 CUDA 和 CUDNN, 可 使 用 以 下 命令 安装 TensorFlow 的 
GPU 版 本 : 


Sudo pip3 install tensorflow-gpu 


现在 TensorFlow 已 经 安装 完成 并 可 以 使 用 。 我 们 通过 几 个 例子 来 了 解 TensorFlow 是 如 何 工 
作 的 Le 


@ 打印 “Hello, TensorFlow” 的 TensorFlow 例子 


我 们 将 直接 在 Python shell 中 使 用 TensorFlow 来 举 一 个 例子 。 在 这 个 例子 中 ， 我 们 将 使 用 


TensorFlow 打印 Hello, TensorFlow。 
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(1) 在 命令 提示 符 下 键入 以 下 命令 从 shell 中 调用 Python。 
python3 
(2) 输入 以 下 命令 以 导入 TensorFlow 库 。 


>>> import tensorflow as tf 




















(3) 接 下 来 ， 用 字符 串 Hello, TensorFlow 定义 一 个 常量 。 这 与 通常 的 Python 赋值 操作 不 同 ， 
因为 该 值 尚 未 初始 化 。 
>>> hello = tf.constant('Hello, TensorFlow!') 
(4) 创建 一 个 会 话 来 初始 化 计算 图 ， 并 为 会 话 ( session ) 命名 。 
>>> session = tf.Session() 
会 话 可 以 使 用 变量 hello 作为 参数 运行 。 


三 


(5) 现在 计算 图 可 执行 并 返回 打印 的 特定 变量 。 





>>> print (session.run(hello)) 


它 应 该 打印 以 下 内 容 : 
Hello, TensorFlow! 


让 我 们 再 看 一 个 例子 ， 理 解 会 话 和 计算 图 是 如 何 工 作 的 。 


7 旦 孝 5 助 。 


访问 https://github.com/rajacheers/DeepLearningForComputerVision, 获取 书 中 所 有 
示例 的 代码 。 代 码 按照 章节 进行 组 织 。 你 可 以 提出 问题 并 在 存储 库 中 获得 帮 


@ 相 加 两 个 数字 的 TensorFlow 例子 
这 是 TensorFlow 相 加 两 个 数字 的 一 个 简单 示例 。 


(1) 使 用 以 下 代码 创建 一 个 Python 文件 并 导入 TensorFlow。 























import tensorflow as tf 

前 面 的 导入 对 于 后 面 的 所 有 例子 都 是 必需 的 。 假 设 我 们 已 经 为 所 有 示例 导入 了 库 。 占 位 
符 (placeholder ) 可 以 通过 以 下 方式 定义 。 分 配 时 未 加 载 占 位 符 。 这 里 ， 变 量 被 定义 为 一 
个 float32 类 型 的 占 位 符 。 占 位 符 是 一 个 空 的 声明 ， 并 且 可 以 在 会 话 运行 时 取 值 。 











(2) 定义 一 个 占 位 符 ， 如 下 所 示 。 


tf.placeholder (tf.float32) 
tf.placeholder (tf.float32) 


x 
Y 
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(3) 现在 可 以 将 占 位 符 的 总 和 操作 定义 为 通常 的 求 和 。 这 里 ， 该 操作 不 会 执行 ， 而 只 是 使 用 
以 下 代码 进行 定义 。 








(4) 可 以 按照 前 面 的 示例 所 示 创 建 会 话 。 如 下 定义 后 ， 计 算 图 就 准备 好 执行 计算 了 。 
session = tf.Session() 
(5) 以 字典 格式 定义 占 位 符 的 值 。 
values = {x: 5.0, y: 4.0} 
(6) 使 用 变量 c 和 定义 的 值 运行 会 话 。 计 算 图 将 值 提供 给 适当 的 占 位 符 , 并 将 值 返 回 给 变量 c。 


result = session.run([z], values) 
print (result) 


作为 相 加 的 结果 ， 该 程序 应 打印 [9.0]。 


可 以 理解 的 是 ， 这 不 是 相 加 两 个 数字 的 最 佳 方式 。 这 个 例子 是 为 了 理解 TensorFlow 中 张 量 
和 操作 的 定义 。 想 象 一 下 ,使 用 万 亿 个 数字 并 将 其 相 加 是 多 么 困难 。TensorFlow 使 用 相同 的 API 
轻松 地 实现 了 这 样 规模 的 计算 。 下 面 将 介绍 如 何 安装 和 使 用 TensorBoard 和 TensorFlow Serving。 





@ TensorBoard 


TensorBoard 是 一 套 可 视 化 工具 ， 用 于 使 用 TensorFlow 对 基于 深度 学 习 的 模型 进行 训练 。 以 
下 数据 可 以 在 TensorBoard 中 可 视 化 。 


口 图 : 计算 图 、 设 备 布局 和 张 量 详细 信息 。 

口 标量 : 诸如 损失 、 和 迭代 的 准确 率 等 度量 指标 。 
口 图 像 : 用 于 查看 带 有 相应 标签 的 图 像 。 

口 音频 : 用 于 收听 训练 或 生成 的 音频 。 

口 分 布 : 用 于 查看 茶 个 标量 的 分 布 。 

口 直方 图 : 包含 权重 和 偏 置 项 的 直方 图 。 

口 投影 器 : 帮助 在 三 维 空间 中 可 视 化 数据 。 

口 文本 : 打印 训练 文本 数据 。 

口 简况 : 查看 用 于 训练 的 硬件 资源 。 


TensorBoard 与 TensorFlow 一 起 安装 。 类 似 于 前 面 的 示例 ， 转 到 Python 3 提示 符 并 键入 以 下 
命令 以 开始 使 用 TensorBoard: 
x tf.placeholder (tf.float32, name='x') 


y = tf.placeholder (tf.float32, name='y') 
= tf.add(x, y, name='sum') 
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请 注意 , 参数 名 称 已 作为 占 位 符 和 操作 的 额外 参数 提供 。 这 些 都 是 可 视 化 图 形 时 可 以 看 到 的 
名 称 。 现 在 可 以 使 用 TensorBoard 中 的 以 下 命令 将 图 形 写 入 特定 文件 夹 : 


tf.Session() 
tf.summary.FileWriter('/tmp/1', session.graph) 


session = 
summary Writer = 


文 命令 将 图 形 写 入 磁盘 上 参数 中 给 定 的 文件 夹 。 现 在 可 以 用 以 下 命令 调用 TensorBoard: 


tensorboard --logdir=/tmp/1 


任何 目录 都 可 以 作为 存储 文件 的 logqdir 选 
启动 可 视 化 来 访问 TensorBoard。 


先 项 的 参数 传递 。 转 到 浏览 器 并 粘贴 以 下 URL， 


http://localhost:6006/ 
浏览 右 窗 口中 的 TensorBoard 可 视 化 如 图 1-21 所 示 。 
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图 1-21 


求 和 的 图 显示 有 占 位 符 的 名 称 。 当 点 击 它们 时 ， 可 以 在 右 侧 看 到 该 操作 张 量 的 所 有 细节 。 我 
们 要 让 自己 熟悉 操作 的 选项 卡 和 选项 。 这 个 窗口 有 几 个 部 分 ， 我 们 将 在 不 同 的 章节 中 了 人 解 它们 。 
TensorBoard 是 使 TensorFlow 脱颖而出 的 最 佳 工 具 之 一 。 


e@ TensorFlow Serving 工具 


TensorFlow Serving 是 TensorFlow 中 用 于 灵活 部 署 环 境 开 发 、 提 供 高 延迟 和 生 吐 量 环境 的 一 
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款 工具 。 任 何 使 用 TensorFlow 训练 的 深度 学 习 模 型 都 可 以 通过 Serving 进行 部 署 。 通 过 运行 以 下 
命令 来 安装 Serving: 

Sudo apt-get install tensorflow-model-server 

有 关 如 何 使 用 它 的 分 步 说 明 将 在 第 3 章 中 介绍 。 注意, 在 Ubuntu 中 安装 TensorFlow Serving 比 
较 容易 ， 其 他 操作 系统 请 参阅 tensorflow.org 网 站 。 图 1-22 说 明了 TensorFlow Serving 和 TensorFlow 
如 何在 生产 环境 中 进行 交互 。 
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图 1-22 





训练 过 程 中 可 以 生成 许多 模型 ，Serving 可 以 无 颖 地 切换 它们 ， 而 无 须 停 机 。 除 了 第 3 章 和 
第 10 章 之 外 ， 所 有 后 续 章 节 都 不 需要 使 用 TensorFlow Serving。 





4. Keras 库 


Keras 是 一 个 用 Python 编写 的 深度 学 习 开 源 库 , 它 提供 了 一 个 简单 的 界面 来 使 用 TensorFlow 
后 端 。Keras 也 可 以 与 Theano 、deep learning 4j 或 CNTK 一 起 使 用 ， 将 它们 用 作 后 端 。Keras 旨 
在 通过 专注 于 友好 、 模 块 化 和 可 扩展 性 来 轻松 、 快 速 地 进行 实验 。 它 是 一 个 独立 的 框架 ， 可 以 
在 CPU 和 GPU 之 间 无 缝 运行 。Keras 可 以 单独 安装 ， 也 可 以 使 用 tf .keras API 在 TensorFlow 
内 部 使 用 。 在 本 书 中 , 我 们 将 使 用 tf .keras API。 我 们 已 经 介绍 了 为 开发 环境 安装 所 需 库 的 步 
又 。 安 装 好 并 平稳 运行 CUDA 、CUDNN 、OpenCV 、TensorFlow 和 Keras 对 于 后 面 的 章节 至 关 
重要 。 
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1.4 小 结 





本 章 介绍 了 深度 学 习 的 基础 知识 。 本 章 介绍 0 因此 , 你 可 以 经 常 回顾 本 童 
内 容 。 本 章 通 过 示例 展示 了 计算 机 视觉 的 一 些 应 用 , 还 介绍 了 创建 开发 环境 时 各 种 平台 上 所 有 和 软 
件 包 的 安装 。 


下 一 章 将 讨论 如 何在 数据 集 上 使 用 Keras 和 TensorFlow 来 训练 分 类 模型 。 我 们 将 研究 如 何 使 
用 更 大 的 模型 和 其 他 技术 (如 增强 和 微调 ) 来 提高 准确 性 ,还 会 介绍 世界 各 地 的 人 们 提出 的 几 个 
先进 模型 ， 它 们 在 竞赛 中 实现 了 最 好 的 准确 性 。 

















图 像 分 类 














图 像 分 类 是 将 整 幅 图 像 分 类 为 单个 标签 的 任务 。 例 如 ， 如 果 给 定 的 图 像 是 狗 或 猫 ， 图 像 分 类 
任务 就 可 以 将 图 像 标记 为 狗 或 猫 。 本 章 将 介绍 如 何 使 用 TensorFlow 来 建立 这 样 的 图 像 分 类 模型 ， 
并 学 习 提 高 分 类 准确 率 的 技术 。 


本 章 涉及 以 下 主题 : 


口 在 TensorFlow 中 训练 MNIST 模型 ; 
口 在 Keras 中 训练 MNIST 模型 ; 

口 其 他 流行 的 图 像 测试 数据 集 ; 

口 更 大 的 深度 学 习 模 型 ; 

口 训练 猫 与 狗 的 模型 ，; 

口 开发 现实 世界 的 应 用 。 














2.1 在 TensorFlow 中 训练 MNIST 模型 


在 本 节 中 ， 我 们 将 了 解 MNIST ( modified national institute of standards and technology ) 数据 
库 的 数据 并 建立 一 个 简单 的 分 类 模型 。 本 节 的 目标 是 学 习 深 度 学 习 的 通用 框架 ,并 使 用 
TensorFlow 建立 它 。 首 先 ， 建 立 一 个 感知 机 或 逻辑 回归 模型 。 然 后 ， 训 练 一 个 CNN 以 获得 更 好 
的 准确 性 。 我 们 还 将 看 到 TensorBoard 是 如 何 帮助 可 视 化 训练 过 程 并 理解 参数 的 。 





























2.1.1 ”MNIST 数据 集 

MNIST 数 据 中 有 手写 数字 0~ 9， 其 中 60 000 幅 图 像 用 于 训练 ，10 000 幅 图 像 用 于 测试 。 该 
数据 库 被 广泛 用 于 尝试 最 少 预 处 理 的 算法 。 它 是 学 习 机 器 学 习 算法 的 一 个 很 好 且 简 洁 的 数据 库 ， 
也 是 最 著名 的 面向 图 像 分 类 问题 的 数据 库 。 图 2-1 显示 了 一 些 示例 。 
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label = 5 label = 0 label = 4 label = 1 label = 9 

label = 2 label = 1 label = 3 label = 1 label = 4 

label = 3 label = 5 label = 3 label = 6 label = 1 

3 四 四 EE 

label = 7 label = 2 label = 8 label = 6 label = 9 
图 2-1 


从 上 图 可 以 看 出 ,这些 手写 字符 有 10 个 标签 .这些 图 像 都 被 归 一 化 为 28 像素 x 28 像素 大 小 ， 
转换 为 灰 度 值 并 且 以 固定 大 小 居中 。 这 是 一 个 可 以 快速 测试 算法 的 小 数据 集 。 在 下 一 节 中 , 我们 
将 看 到 如 何 加 载 此 数据 集 以 用 于 TensorFlow。 























2.1.2 加载 MNIST 数据 


直接 从 TensorFlow 加 载 MNIST 数据 。 请 注意 ， 在 加 载 数据 时 将 独 热 编码 指定 为 参数 。 标 签 
以 整数 形式 存储 ， 但 应 作为 独 热 编码 加 载 以 便于 训练 。 假 设 读者 从 此 时 起 用 TensorFlow 导入 的 
tf 从 编辑 器 运行 代码 。 以 下 是 加 载 MNIST_gata 的 代码 片段 : 









































from tensorflow.examples.tutorials.mnist import input_data 
mnist_data = input_data.read data_sets('MNIST data', one_ hot=True) 


第 一 次 运行 时 ， 下载 数据 可 能 需要 一 些 时 间 。 从 第 二 次 运行 开始 , 将 使 用 缓存 的 数据 。 在 下 
一 节 中 ， 我 们 将 建立 一 个 感知 机 对 数字 进行 分 类 。 








2.1.3 ”建立 一 个 感知 机 


感知 机 是 单 层 的 神经 网 络 。 本 章 涵 盖 的 概念 ,如 全 连接 层 .激活 函数 、 随 机 梯度 下 降 、1ogits、 
独 热 编 码 、softmax 和 交叉 焙 ， 在 这 里 会 很 用。 下 面 将 学 习 如 何在 TensorFlow 中 定义 神经 网 
络 的 这 些 组 件 并 使 用 网 络 来 训练 MNIST 数据 。 


1. 为 输入 数据 和 目标 定义 占 位 符 
占 位 符 是 传递 数据 的 张 量 。 占 位 符 不 是 特定 的 值 , 但 会 在 计算 过 程 中 接收 输入 。 感知 机 的 输 














26 第 2 章 图 像 分 类 




















和 人 大小、 分 类 数量 、 批 次 大 小 以 及 迭代 次 数 或 批 次 总 数 要 先 声明 。x_input 是 稍 后 传人 图 像 的 
输入 占 位 符 ，y_input 是 一 次 性 标签 或 目标 的 占 位 符 ， 如 下 所 示 : 

















be 
no_classes = 10 
batch_ size = 100 

total_batches = 200 


tf.placeholder (tf.float32, shape=[None, input_sizel]) 
tf.placeholder (tf.float32, shape=[None, no_classes]) 


x_input 

y_input 

因为 还 没有 定义 批 次 大 小 ， 所 以 shape 参数 中 的 None 表示 它 可 以 是 任何 大 小 。 第 二 个 参 
数 是 x_input 的 张 量 大 小 和 y_input 的 分 类 数量 。 根据 占 位 符 的 类 型 , 我 们 已 将 数据 作为 浮 点 
数 发 送 。 接 下 来 ， 我 们 可 以 定义 感知 机 。 

2. 定义 全 连接 层 的 变量 

我 们 通过 解释 权重 和 偏 置 等 变量 来 定义 一 个 简单 的 线性 分 类 器 或 感知 机 。 这些 变量 的 值 将 在 
计算 过 程 中 习 得 。 它 们 也 被 称 为 模型 参数 。 权 重 变量 用 正 态 随机 分 布 初始 化 , 具有 输入 大 小 和 分 
类 数量 的 形状 。 当 图 像 被 重 整 形 为 一 个 单个 向 量 时 , 输入 大 小 为 784。 分 类 的 数量 是 10， 等 于 数 
据 集 中 的 数字 个 数 。 偏 置 变量 也 用 随机 正 态 分 布 初始 化 ， 其 大 小 等 于 分 类 的 数量 。 权重 和 偏 置 的 
定义 如 下 : 


weights = tf.Variable(tf.random normal ([input_size, no_classes])) 
bias = tf.Variable(tf.random normal([no_classes])) 


变量 的 初始 化 可 以 是 零 , 但 初始 化 为 随机 正 态 分 布 可 以 提供 稳定 的 训练 。 然后 对 输入 进行 加 
权 并 添加 偏 置 以 产生 如 下 所 示 的 logits: 


logits = tf.matmul (x_input, weights) + bias 


感知 机 产生 的 logits 必须 与 独 热 标签 y_input 进行 比较 。 从 第 1 章 中 得 知 ， 最 好 使 用 
softmax 和 交 义 炉 来 比较 logits 和 独 热 标签 。 





























TensorFlow 的 tf.nn.softmax_cross_entropy_with_logits API 做 到 了 这 一 点 。 可 以 
通过 对 交叉 炉 求 平均 值 来 计算 损失 。 然 后 通过 tf.train.GradientDescentOptimizer 完成 
的 梯度 下 降 优化 来 得 到 交叉 粹 。 优 化 右 获 取 损 失 并 将 其 最 小 化 ， 这 里 的 学 习 速 率 设 为 0.5。 下 面 
显示 了 softmax、 交 义 和 和 损失 的 计算 ， 以 及 随后 的 优化 : 


softmax_cross_entropy = tf.nn.softmax_cross_entropy_with _ logits( 
labels=y_input, logits=logits) 

loss_operation = tf.reduce mean(softmax_ cross_entropy) 

optimiser = tf.train.GradientDescentOptimizer!( 
learning_ rate=0.5) .minimize (loss_operation) 


softmax 和 交叉 录 是 靠 tf .nn 包 一 起 计算 的 ， 该 包 中 有 其 他 几 种 有 用 的 方法 。tf .train 
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有 几 个 优化 器 ， 我 们 在 这 里 使 用 的 是 vanilla 梯度 下 降 。 你 可 以 访问 TensorFlow API 文档 以 了 解 
其 他 可 选 参数 。 到 目前 为 止 ， 占 位 符 、 变 量 和 操作 都 已 定义 ， 但 尚未 用 在 张 量 上 。 


请 在 tensorflow.org 网 站 阅读 TensorFlow 中 可 用 的 优化 器 列表 。Adam 优化 器 对 
计算 机 视觉 应 用 程序 特别 有 用 。 它 通常 会 更 快 地 收敛 ,并且 不 需要 先 定 义学 习 速 
率 。 如 要 了 解 有 关 优 化 程序 的 理论 总 结 , 请 访问 http://ruder.io/optimizing-gradient- 
descent。 


3. 用 数据 训练 模型 


现在 已 经 定义 了 模型 和 训练 操作 ,下 一 步 是 开始 用 数据 来 训练 模型 。 在 训练 过 程 中 ,计算 梯 
度 并 更 新 权重 。 变 量 尚 未 初始 化 。 接 下 来 ， 启 动 会 话 并 使 用 全 局 变量 初始 化 器 初始 化 变量 。 


session = tf.Session() 
session.run(tf.global variables_initializer()) 


本 书 中 的 大 多 数 示例 都 需要 上 面 的 两 行 代 码 。 默 认 读 者 将 在 需要 的 地 方 使 用 这 两 行 代 码 。 现 
在 图 已 准备 好 接收 数据 并 开始 训练 了 。 在 循环 中 , 批量 读 取 数据 并 训练 模型 。 训 练 模型 通过 运行 
有 所 需 张 量 的 会 话 来 执行 。 必 须 调用 优化 器 才能 使 图 更 新 权重 。 
for batch no in range(total_batches) : 
mnist_batch = mnist data.train.next_batch(batch _ size) 
_, loss_value = session.run([optimiser, loss_operation], feed dict={ 
x_input: mist _ batch[0], 
y_input: mnist_ batch[1] 


} 
print (loss_value) 


run 方法 的 第 一 个 参数 可 以 是 一 个 数组 ,用 来 接收 输出 值 。 这 里 传递 损失 是 因为 打印 损失 值 
可 以 告诉 我 们 模型 是 否 在 被 训练 。 因 为 目标 是 尽量 减 小 损失 ， 所 以 损失 值 预计 将 会 减少 。feea 
dict 是 一 个 Python 字典, 它 用 于 直接 将 输入 和 目标 标签 提供 给 占 位 符 。 一 旦 这 个 循环 结束 ， 损 
失 值 一 般 应 该 低 于 0.46。 接 下 来 ， 可 以 通过 计算 准确 率 来 评估 模型 的 工作 情况 ， 如 下 所 示 : 
predictions = tf.argmax(logits, 1) 


correct_predictions = tf.equal (predictions, tf.argmax(y_input, 1)) 
accuracy_operation = tf.reduce mean(tf.cast (correct_ predictions, 











































































































tf.float32)) 
test_images, test_labels = mnist data.test.images, mnist_ data.test.labels 
accuracy_value = session.run(accuracy_operation, feed_ dict={ 


x_input: test_images, 

y_input: test_labels 
} 
print('Accuracy : ', accuracy_value) 
session.close() 


预测 应 该 是 最 大 激活 的 索引 。 应 该 将 它 与 MNIST 事实 上 的 标签 进行 比较 ， 以 做 出 正确 的 预 
测 。 准 确 率 是 使 用 正确 预测 的 平均 值 计算 的 。 可 以 通过 将 测试 数据 作为 传人 字典 来 运行 会 话 ， 以 
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评估 数据 的 准确 性 。 当 整个 程序 运行 时 , 它 应 该 最 终 得 到 大 约 90% 的 准确 率 。 由 于 没有 用 更 简单 
的 API 进行 训练 和 测试 ， 模 型 的 定义 可 能 过 于 明显 。 这 个 基本 定义 的 级 别提 供 了 TensorFlow 的 
表达 能 力 。 在 接 下 来 的 几 节 中 ， 我 们 将 看 到 更 高 层次 的 API。 由 感知 机 获得 的 准确 率 不 是 很 高 ， 
下 一 节 将 使 用 一 个 更 深 的 卷 积 网 络 层 来 提高 准确 性 
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2.1.4 构建 多 层 卷 积 网 络 


在 本 节 中 ， 我 们 将 介绍 如 何在 TensorFlow 中 创建 多 层 卷 积 网 络 ， 并 观察 深层 网 络 如 何 提高 
分 类 的 准确 率 。 我 们 将 使 用 TensorFlow 层 的 API 来 定义 层 ， 而 不 是 从 头 做 起 。 你 可 以 体会 这 些 
方法 中 的 最 佳 实践 方法 。 和 上 一 节 一 样 导 入 库 .数据 集 和 占 位 符 。 这 一 次 ,我 们 将 使 用 TensorBoard 
对 训练 过 程 进 行 可 视 化 。 为 了 可 视 化 变量 的 统计 ， 必 须 将 变量 统计 的 值 添加 到 tf. summary 中 。 


汇总 (summary ) 将 写 入 可 被 TensorBoard 解释 的 文件 夹 。 为 了 用 TensorBoard 来 可 视 化 ,我 
们 定义 一 个 函数 来 写 入 汇总。 


def add_ variable_ summary (tf_variable, summary_name): 
with tf.name_scope(summary_name + '_summary'): 
mean = tf.reduce mean(tf_variable) 
tf.summary.scalar('Mean', mean) 
with tf.name_scope('standard deviation'): 
standard_ deviation = tf.sqaqrt (tf.reduce mean( 
tf.square (tfE _ variable - mean))) 

tt.summary.scalar('StandardDeviation'，standqard_dqeviation) 
tf.summary.scalar('Maximum', tf.reduce max(tf_variable)) 
tf.summary.scalar('Minimum', tf.reduce min(tf_ variable)) 
tf.summary.histogram('Histogram', tf_variable) 


变量 summary 函数 写 人 变量 的 汇总 。 这 里 有 五 个 统计 量 添 加 到 了 汇总 中 : 均值 、 标 准 差 、 
最 大 值 、 最 小 值 和 直方 图 。 汇总 可 以 是 标量 或 直方 图 。 当 记录 多 个 变量 时 ,我 们 将 看 到 这 些 值 如 
何在 TensorBoard 中 可 视 化 。 与 以 前 的 模型 不 同 , 我 们 将 MNIST 数据 调整 为 正方 形 , 并 像 二 维 图 
像 一 样 使 用 它 。 以 下 是 将 图 像 重 整形 为 28 像素 x 28 像素 的 命令 : 


x_input_reshape = tf.reshape(x_ input, [-1, 28, 28, 1], 
name='input_reshape') 


维度 -1 表示 批 次 大 小 可 以 是 任何 数 。 请 注意 , 为 了 便于 理解 ， 有 一 个 名 为 name 的 参数 将 会 
反映 在 TensorBoard 图 中 。 我 们 将 定义 一 个 二 维 卷 积 图 层 ， 其 中 定义 了 输入 、 滤 波 器 、 核 和 激活 。 
该 方法 可 以 在 任何 地 方 被 调用 ， 以 用 于 进一步 的 示例 ， 并 且 在 激活 函数 具有 修正 线性 单元 激活 
时 是 有 用 的 。 卷 积 函 数 层 定义 如 下 : 

def convolution_ layer (input_layer, filters, kernel_ size=[3, 3], 

activation=tf.nn.relu): 
layer = tf.layers.conv2d( 


inputs=input_layer, 
filters=filters, 
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Kernel_size=kernel_size， 
activation=activation, 
) 
adqd_variable summary (layer, 'convolution') 
return layer 


这 里 kernel_size 和 activation 有 默认 参数 。 汇 总 被 添加 到 函数 内 的 层 并 返回 相应 的 层 。 
无 论 什么 时 候 调 用 该 函数 ，input_layer 都 必须 作为 参数 传递 。 这 种 定义 将 使 代码 简单 小 巧 。 
以 非常 相似 的 方式 ， 我 们 将 为 pooling_layer 定义 一 个 函数 ， 如 下 所 示 


def pooling_ layer (input_layer, pool_ size=[2, 2], strides=2): 
layer = tf.layers.max_ pooling2d( 
inputs=input_layer, 
pool_size=pool_size, 
strides=strides 
) 
adqd_variable summary (layer, 'pooling') 
return layer 


该 层 具有 默认 参数 : pool_size 为 [2，2]， 步 幅 为 2。 这 些 参数 通常 工作 良好 ,但 可 以 在 
必要 时 进行 更 改 。 该 层 也 添加 了 汇总 。 接 下 来 我 们 将 定义 一 个 密集 层 ， 如 下 所 示 : 


def dense_ layer (input_layer, units, activation=tf.nn.relu): 
layer = tf.layers.densel 
inputs=input_layer, 
units=units, 
activation=activation 





) 
adqd_variable_ summary (layer, 'dense') 
return layer 


定义 的 密集 层 具有 激活 函数 的 默认 参数 ， 并 且 添 加 了 变量 汇总 。pooling_layer 从 卷 积 层 
获取 特征 图 , 并 使 用 池 化 大 小 和 步 幅 将 它 缩小 为 原 大 小 的 一 半 。 所 有 这 些 层 都 作为 图 连接 在 一 起 。 
没有 初始 化 任何 值 。 可 以 添加 另 一 个 卷 积 层 , 将 来 自 第 一 个 卷 积 层 的 采样 特征 转换 为 更 好 的 特征 。 
池 化 后 ， 为 便于 馈送 到 密集 层 ， 我 们 可 以 将 激活 值 重 整 形 为 线性 形式 。 

convolution layer_1 = convolution layer(X_input_reshape，64) 

pooling_layer_1 = pooling layer (convolution layer_1) 

convolution layer_2 = convolution layer (pooling_ layer_1, 128) 

pooling_layer_ 2 = pooling_ layer (convolution layer_ 2) 

flattened pool = tf.reshape(pooling_ layer 2, [-1, 5 * 5 * 128]， 


name='flattened pool') 
dense_layer_bottleneck = dense_ layer (flattened pool, 1024) 


卷 积 层 之 间 的 唯一 区 别 是 滤波 融 的 大 小 。 在 各 层 之 间 适 当 变 化 维度 很 重要 。 卷 积 核 和 步 幅 参 
数 的 选择 是 任意 的 , 这 些 数字 是 根据 经 验 选择 的 。 定义 了 两 个 卷 积 层 , 然后 可 以 接 一 个 全 连接 层 。 
密集 层 API 可 以 采用 任何 单 维度 向 量 , 并 将 其 映射 到 任意 数量 的 隐藏 单元 ,在 这 个 例子 中 为 1024。 
隐藏 层 随 后 是 ReLU 激活 函数 导致 的 非 线 性 计算 。 变 量 汇 总 也 被 添加 到 这 一 层 。 接 下 来 是 有 一 定 
丢弃 率 的 丢弃 层 。 保 持 高 丢弃 值 会 阻止 网 络 的 学 习 。 根 据 何 时 使 用 它 ， 可 以 将 训练 模式 设置 为 
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True 和 Falseo 训练 时 将 它 设置 为 True ( 默认 为 False bk 我 们 将 不 得 不 在 计算 准确 率 时 改变 
这 一 点 。 因 此 ， 把 它 作为 一 个 布尔 值 ， 并 在 训练 期 间 传 入 。 


dropout_bool = tf.placeholder (tf.bool) 

dropout_layer = tf.layers.dropout!l 
inputs=dense_layer_bottleneck, 
rate=0.4, 
training=dropout_bool 

















) 





丢弃 层 再 次 被 送 入 一 个 称 为 logits 的 密集 层 。logits 是 有 激活 函数 并 导出 分 类 数量 的 最 后 一 
层 。 这 些 激活 函数 会 对 一 个 特定 的 类 别 有 尖 锐 的 输出 ， 这 个 类 别 就 是 目标 类 别 。 最 多 可 以 获得 
10 个 激活 函数 。 


logits = dense_layer (dropout_layer, no_classes) 




















logits 输出 与 上 一 节 中 创建 的 模型 非常 相似 。 现 在 1ogits 可 以 像 以 前 一 样 通过 softmax 
层 ， 随 后 进行 交 义 炉 计 算 。 在 这 里 ， 我 们 添加 了 一 个 作用 域名 称 ， 以 便 在 TensorBoard 中 获得 更 
好 的 可 视 化 效果 。 


with tt.name_scope('1oss') : 
softmax_cross_entropy = tf.nn.softmax_cross_entropy_with _ logits( 
labels=y_input, logits=logits) 
loss_operation = tf.reduce mean(softmax_ cross_entropy, name=']oss') 
tf.summary.scalar('loss', loss_operation) 





这 个 loss 子 数 可 以 通过 tf.train API 的 方法 进行 优化 。 在 这 里 ， 我 们 将 使 用 
Adamoptimiser。 学 习 速 率 不 需要 定义 ， 并 且 在 大 多 数 情 况 下 运行 良好 。 


with tf.name_ scope('optimiser'): 
optimiser = tf.train.AdamOptimizer() .minimize(loss_operation) 


准确 率 按照 之 前 的 方法 计算 ,但 为 了 正确 的 预测 率 和 准确 率 计算 ,添加 了 名 称 作 用 域 。 


with tf.name_ scope('accuracy'): 
with tf.name_scope('correct_ prediction'): 
predictions = tf.argmax(logits, 1) 
correct_predictions = tf.equal (predictions,tf.argmax(y_input,1)) 
with tf.name_scope('accuracy'): 
accuracy_operation = tf.reduce mean( 
tf.cast (correct predictions, tf.float32)) 
tf.summary.scalar('accuracy', accuracy_operation) 


准确 率 的 标量 汇总 也 添加 了 进来 。 下 一 步 是 开始 会 话 ， 并 像 上 一 广 那 样 初始 化 变量 。 这 里 不 
再 重复 这 些 行 。 汇 总 必须 合并 ， 写 人 训练 和 测试 汇总 的 文件 必须 定义 。 


merged_summary_operation = tf.summary.merge_all() 
train_summary_writer = tf.summary.FileWriter('/tmp/train',session.graph) 
test_summary_writer = tf.summary.FileWriter('/tmp/test') 
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请 注意 ， 该 图 是 使 用 summary_writer 写 和 的。 除了 训练 时 的 准确 率 计算 和 将 这 些 值 添 加 
到 汇总 之 外 ， 训 练 与 以 前 非常 相似 。 接 下 来 ， 可 以 批量 加 载 数 据 并 开始 训练 。 


test_images, test_labels = mnist data.test.images,mnist data.test.labels 
for batch no in range(total_ batches): 

mnist_batch = mnist data.train.next_batch(batch size) 

train_images, train labels = mnist_batch[0], mnist_batch[1] 


_, merged_ summary = session.run([optimiser, merged_ summary_operation], 
feed_ dict={ 











x_input: train images, 
y_input: train labels, 
dropout_bool: True 
} 
train_ summary_writer.add_ summary (merged_ summary, batch no) 
if batch no %$ 10 == 
merged_summary, _ = session.runl([merged_ summary_operation, 
accuracy_operation],feed dict={ 
x_input: test_images, 
y_input: test_labels, 
dropout_bool: False 
} 


test_summary_writer.add_summary (merged_summary, batch_ no) 


每 次 迭代 都 会 返回 汇总 数据 ， 并 将 其 添加 到 writer 中 。 对 于 每 个 第 十 次 迭代 ， 都 会 添加 测 
Us 请 注意 ， 丢弃 仪 在 训练 期 间 启 用 ， 而 不 在 测试 期 间 启 用 。 我 们 已 经 完成 了 网 络 的 定义 和 
[总 ， 并 可 以 运行 它 。 要 查看 训练 过 程 ， 可 以 按照 第 1 章 所 述 进入 TensorBoard。 


出 





利用 TensorBoard 深度 学 习 


在 浏览 器 中 打开 TensorBoard 后 , 转 到 Graphs 选项 卡 。 我 们 已 经 定义 并 且 正 在 训练 的 图 应 该 
会 显示 出 来 。 右 键 单 击 节点 ， 可 以 选择 要 从 主 图 中 删除 的 操作 。 经 过 一 定 程度 的 对 准 之 后 ,应 如 
图 2-2 所 示 。 
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图 2-2 


我 们 已 定义 的 所 有 层 都 显示 出 来 了 。 这 对 检查 架构 的 定义 非常 有 用 。 计 算 图 的 方向 和 所 有 细 
节 都 进行 了 很 好 的 可 视 化 。 点 击 每 个 节点 ， 可 以 看 到 节点 的 详细 信息 ， 如 输入 和 输出 张 量 形 状 ， 
如 图 2-3 所 示 。 
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图 2-3 
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这 些 值 可 用 于 交叉 检查 各 层 参 数 的 定义 。 查 看 左下 角 的 图 例 ， 熟 悉 一 下 这 个 页 面 ， 如 图 2-4 
所 示 。 
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Summary ? 
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Reference edge ? 














图 2-4 


名 称 作用 域 被 分 组 ,， 单 击 节 点 上 的 加 号 可 以 看 到 各 个 组 件 。 节 点 按 颜色 排列 。 现 在 我 们 可 以 
进入 标量 页 面 。 通 过 在 页 面 中 移动 ， 你 可 以 看 到 准确 率 网 ， 如 图 2-5 所 示 。 




















accuracy_1 




















图 2-5 


橙色 线 表示 训练 数据 ， 蓝 色 线 表示 测试 数据 。 "它们 大 致 遵循 相同 的 模式 。 浅 色 线 表示 原始 
值 , 深 色 线 则 是 平滑 过 的 曲线 。 平滑 系数 可 以 在 UI 中 选择 。 测 试 数据 的 准确 率 达 到 了 97% 以 上 。 
图 2-6 是 损失 汇总 中 的 图 。 


























Q@ 本 书 彩 图 可 到 图 灵 社 区 本 书 主页 ( http://ituring.cn/book/2396 )“ 随 书 下 载 ” 处 查看 。 一 一 编者 注 
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图 2-6 

在 训练 过 程 中 ,训练 数据 和 测试 数据 的 损失 稳步 下 降 , 这 是 一 个 好 迹象 。 所 有 汇总 数据 将 在 
训练 过 程 中 进行 更 新 ， 我 们 可 以 看 到 准确 性 的 提高 以 及 损失 的 减少 ， 从 而 获得 97.38% 的 测试 准 
确 率 。 

这 有 助 于 你 了 解 该 模型 是 否 正 在 学 习 并 朝 着 更 好 的 结果 前 进 。 其 他 汇总 , 如 最 小 值 、 最 大 值 、 
平均 值 和 标准 偏差 ， 也 有 用 。 图 2-7 是 密集 层 的 图 。 
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图 2-7 
这 些 汇总 对 于 注意 权重 的 变化 很 有 用 。 这 些 分 布 也 可 以 可 视 化 为 直方 图 ， 如 图 2-8 所 示 。 


2.2 在 Keras 中 训练 MNIST 模型 35 








convolution_summary_1/Histogram 


"0 126er8 


I0 














图 2-8 


以 上 是 logits 权重 的 散布 排列 。 这 些 是 TensorBoard 提供 的 美观 的 可 视 化 ， 对 训练 非常 有 
帮助 。 通 过 更 深 的 模型 ， 我 们 能 够 看 到 准确 率 的 显著 提高 。 在 下 一 广 中， 我们 将 了 解 如 何 使 用 
Keras API 来 训练 相同 的 模型 。 现在 你 可 以 看 到 TensorBoard 在 检查 深度 学 习 模型 和 训练 过 程 中 的 
强大 功能 。 




















2.2 在 Keras 中 训练 MNIST 模型 


在 本 节 中 , 我 们 将 使 用 tf .keras API 建立 与 上 一 节 相 同 的 模型 。 最 好 从 TensorFlow 中 学 习 
Keras 和 各 层 的 包 ， 因 为 在 几 个 开源 代码 中 可 以 看 到 它们 。 本 书 的 目标 是 让 你 了 解 TensorFlow 的 
各 种 功能 ， 以 便 在 上 面 构建 产品 。 

“阅读 代码 的 次 数 比 编写 代码 的 次 数 多 。” 


考虑 到 前 面 这 句 引 语 , 你 将 会 看 到 如 何 使 用 各 种 API 实现 相同 的 模型 。 实现 最 新 算法 的 开源 
代码 将 是 这 些 API 的 混合 。 接 下 来 ， 让 我 们 从 Keras 实现 开始 。 








2.2.1 准备 数据 集 


MNIST 数据 与 Keras 一 起 提供 。 首先 , 导入 TensorFlow。 然后 定义 一 些 常量 , 例如 批 次 规模 、 
类 别 和 周期 (epoch ) 数 。 可 以 根据 你 的 计算 机 上 可 用 的 RAM 大 小 选择 批 次 规模 。 批 次 越 大 ， 所 
需 的 RAM 就 越 多 。 批 次 规模 对 准确 率 的 影响 很 小 。 分 类 的 数量 在 这 个 例子 中 等 于 10， 当 然 , 不 
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同 的 问题 会 有 所 不 同 。 周期 的 数量 决定 了 训练 必须 经 过 整个 数据 集 的 次 数 。 如 果 在 所 有 周期 结 
时 损失 减少 ， 则 可 以 将 其 设置 为 一 个 较 高 的 数字 。 在 一 些 情况 下 ， 长 时 间 训 练 可 以 提高 准确 率 。 
让 我 们 来 看 看 创建 数据 集 的 步 又 。 


(1) 设置 输入 图 像 的 尺寸 。 


batch_ size = 128 

no_classes = 10 

epochs = 2 

image_height, image width = 28, 28 


(2) 使 用 Keras 工具 将 数据 加 载 到 内 存 中 。 


(x_train, y_train), (x_test, y_test) = tf.keras.datasets.mnist.1load data() 


(3) 将 向 量 重 整 形 为 图 像 格 式 ， 并 使 用 给 出 的 代码 定义 卷 积 的 输入 维度 。 


x_train = x train.reshape(x_train.shape[0], image height,image width,1) 
x_test = x _ test.reshape (x_test.shape[0], image height, image width, 1) 
input_shape = (image height, image width, 1) 


(4) 将 数据 类 型 转换 为 浮 点 数 。 


x train = KX trailm astype('float32.) 


x_test = x _ test.astype('float32') 


(5) 减 去 数据 的 平均 值 以 归 一 化 数据 。 


x EraLN. /= 255 
全 七 SS 


(6) 将 分 类 标签 转换 为 独 热 编码 。 














y_train = tf.keras.utils.to_ categoricall(y_train, no_classes) 
y_test = tf.keras.utils.to_ categorical(y_test, no_classes) 


这 与 TensorFlow 的 代码 编写 方式 有 很 大 不 同 。 数 据 已 经 加 载 到 内 存 中 ， 这 里 没有 任何 占 位 
符 的 概念 。 





2.2.2 ”构建 模型 


在 本 节 中 , 我们 将 使 用 一 些 卷 积 层 ,然后 使 用 全 连接 层 来 训练 前 面 的 数据 集 。 建 立 一 个 简单 
的 序列 模型 ， 其 中 包含 两 个 卷 积 层 ， 然 后 是 池 化 层 、 丢 弃 层 和 密集 层 。 一 个 序列 模型 具有 将 层 堆 
瑟 在 男 一 层 上 的 ada 方法 。 第 一 层 有 64 个 滤波 器 ， 第 二 层 有 128 个 滤波 器 。 所 有 滤波 器 的 核 大 
小 均 为 3。 在 卷 积 层 之 后 应 用 最 大 池 化 。 卷 积 层 的 输出 被 平坦 化 ， 连 接 到 具有 丢弃 层 连接 的 几 个 
全 连接 层 。 

最 后 一 层 连接 到 softmax ， 因 为 这 是 一 个 多 分 类 问题 。 以 下 代码 展示 了 如 何 定 义 模型 。 
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def simple_cnn(input_shape): 

model = tf.keras.models.Sequential() 

model.add (tf.keras.layers.Conv2D( 
filters=64, 
kernel_size=(3, 3), 
activation='relu', 
input_shape=input_shape 

) ) 

model.add (tf.keras.layers.Conv2D( 
filters=128, 
kernel_size=(3, 3), 
activVation=' Telu' 





) ) 





model.add (tf.keras.layers.MaxPooling2D(pool_size=(2, 2))) 

model.add(tf.keras.layers.Dropout (rate=0.3)) 

model.add(tf.keras.layers.Flatten()) 

model.add (tf.keras.layers.Dense (units=1024, activation='relu')) 

model.add(tf.keras.layers.Dropout (rate=0.3)) 

model.add (tf.keras.layers.Dense (units=no_classes, 
activation='softmax')) 

model.compile(loss=tf.keras.losses.categorical_ crossentropy, 





optimizer=tf.keras.optimizers.Adam(), 
metrics=['accuracy']) 

return model 
simple_cnn model = simple_cnn(input_shape) 





该 模型 刚 定 义 好 ， 必 须 进行 编译 。 在 编译 时 ， 必 须 定 义 损失 、 优 化 右 和 度量 指标 。 损 失 是 交 
又 炉 ， 优 化 通过 Adam 算法 进行 ， 用 准确 率 作为 度量 指标 。 使 用 加 载 的 数据 来 训练 和 评估 数据 。 
使 用 训练 参数 加 载 训练 数据 并 拟 合 模型 。 


simple_cnn model.fit (x train, y_train, batch size, epochs, (x_test, y_test)) 
train loss, train accuracy = simple_cnn model.evaluatel( 
x_train, y_train, verbose=0) 
print(' Train data loss:', train _ loss) 
print ('Train data accuracy:', train accuracy) 


使 用 Keras API 时 不 会 创建 会 话 。 如 下 评估 测试 数据 : 


test_loss, test_accuracy = simple_cnn model.evaluate!l 
x_test, y_test, verbose=0) 

print('Test data loss:', test_loss) 

print('Test data accuracy:', test_accuracy) 


评估 也 是 在 没有 显 式 创建 会 话 的 情况 下 进行 的 。 运 行 结束 后 ， 结 果 应 该 如 下 所 示 : 


Loss for train data: 0.0171295607952 
Accuracy of train data: 0.995016666667 
Loss for test data: 0.0282736890309 
Accuracy of test data: 0.9902 


在 测试 数据 上 得 到 了 高 于 99% 的 准确 率 。 训练 数据 达到 的 准确 率 高 于 测试 数据 。 把 它们 都 打 
印 出 来 始终 是 一 种 很 好 的 做 法 。 准 确 率 的 差异 是 由 于 迭代 的 次 数 不 同 。 由 于 数据 集 的 差异 ， 准 确 
率 比 之 前 在 TensorFlow 中 创建 的 模型 稍微 高 一 些 。 
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2.3 ”其 他 流行 的 图 像 测试 数据 集 
MNIST 数据 集 是 测试 算法 最 常用 的 数据 集 。 但 还 有 其 他 用 于 测试 图 像 分 类 算法 的 数据 集 。 














2.3.1 CIFAR 数据 集 


CIFAR-10 (canadian institute for advanced research-10 ) 数据 集 有 60 000 幅 图 像 ， 其 中 50 000 
幅 用 于 训练 ，10 000 幅 用 于 测试 。 分 类 的 数量 是 10， 图 像 尺 寸 是 32 像素 x 32 像素 。 图 2-9 是 从 
每 个 类 别 中 随机 选择 的 图 像 。 
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图 2-9 

这 些 图 像 很 小 , 只 包含 一 个 对 象 。CIFAR-100 数据 集 包 含 相同 数量 的 图 像 , 但 有 100 个 类 别 。 
因此 ， 每 个 类 别 只 有 600 幅 图 像 。 每 幅 图 像 都 带 有 粗 标 签 和 精 标签 。 如 果 你 想 实验 ， 这 个 数据 集 
可 以 在 tf.keras.datasets 上 找到 。 
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2.3.2 ”Fashion-MNIST 数据 集 


Fashion-MNIST 是 作为 MNIST 数据 集 的 备 选 项 创建 的 。 这 个 数据 集 被 认为 太 简 单 了 ， 可 以 
直接 用 MNIST 替换 。 


图 2-10 是 执行 主 成 分 分 析 (PCA ) 后 从 数据 集中 随机 选择 的 示例 。 
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图 2-10 

数据 集 规模 、 标 签 数量 和 图 像 大 小 与 MNIST 类 似 。 更 多 细节 可 以 在 https://github.com/ 
zalandoresearch/fashion-mnist 找到 。 你 可 以 运行 先前 学 习 的 模型 并 检查 准确 率 。 
2.3.3 ImageNet 数据 集 和 竞赛 


ImageNet 是 一 个 计算 机 视觉 数据 集 ， 包 含 14 197 122 幅 图 像 ，21 841 个 Synset 索引 。Synset 


是 WordNet 层次 结构 中 的 一 个 节点 ， 又 是 一 组 同义词 集合 。 每 年 都 有 基于 该 数据 集 的 1000 个 
别 的 比赛 。 它 一 直 是 评估 图 像 分 类 算法 性 能 的 基准 。 

















2013 年 ,一 个 基于 深度 学 习 的 计算 机 视觉 模型 获得 


导 了 第 一 名 。 从 那 时 起 ， 只 有 深度 学 习 模 
赢得 了 比赛 。 图 2-11 是 比赛 多 年 来 排名 前 五 的 错误 率 。 
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图 2-11 


可 以 注意 到 多 年 来 准确 率 以 及 图 的 深度 一 直 在 提升 。 接 下 来 将 介绍 该 图 中 展示 的 模型 。 




















2.4 更 大 的 深度 学 习 模 型 


我 们 将 介绍 儿 个 在 ImageNet 竞 赛 中 取得 最 新 成 果 的 模型 。 























2.4.1 AlexNet 模型 


AlexNet 是 第 一 个 激 起 人 们 对 计算 机 视觉 深度 学 习 浓 厚 兴 趣 的 发 表 成 果 。Krizhevsky 等 人 提 
出 了 AlexNet。 该 模型 是 该 领域 的 先驱 并 很 有 影响 力 。 该 模型 在 2013 年 赢得 了 ImageNet 竞赛 ， 
错误 率 只 有 15.4%, 明显 好 于 第 二 名 。 该 模型 相对 简单 , 具有 五 个 卷 积 层 。 它 面临 的 挑战 是 对 1000 
个 类 别 的 对 象 进行 分 类 。 图 像 和 数据 有 1500 万 幅 带 标注 的 图 像 和 超过 22 000 个 类 别 。 其 中 ， 只 
有 1000 个 类 别 用 于 比赛 。AlexNet 使 用 ReLU 作为 激活 函数 ， 并 发 现 它 的 训练 速度 比 其 他 激活 函 
数 快 几 倍 。 图 2-12 显示 的 是 模型 的 体系 结构 。 
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* 经 Krizhevsky 等 人 许可 转载 





图 2-12 


该 论文 还 使 用 了 数据 增强 技术 ， 如 图 像 翻 译 、 水 平 翻 转 和 随机 裁剪 。 技 弃 层 可 防止 过 拟 合 。 
该 模型 使 用 vanilla SGD 进行 训练 。SGD 的 参数 经 过 仔细 选择 用 于 训练 。 在 一 组 固定 集合 的 训练 
迭代 中 变化 学 习 速 率 。 动 量 和 权重 衰减 需要 固定 的 训练 值 。 该 论文 介绍 了 一 种 称 为 本 地 响应 归 一 化 
( local response normalization，LRN ) 的 概念 。LRN 层 对 若干 滤波 器 中 的 每 个 像素 进行 归 一 化 处 
理 ， 以 避免 某 个 滤波 器 中 的 巨大 激活 。 


最 近 的 研究 表明 ， 由 于 LRN 并 没有 带 来 太 大 的 性 能 改善 ， 因 此 这 一 层 已 经 不 再 使 用 了 。 
AlexNet 总 共有 6000 万 个 参数 。 
































2.4.2 VGG-16 模型 


VGG 模型 代表 牛津 大 学 的 Visual Geometry Group。 该 模型 非常 简单 , 并 且 比 AlexNet 具有 更 
大 的 深度 。 这 篇 论文 有 两 个 模型 分别 有 16 层 和 19 层 。 所 有 的 CNN 层 都 使 用 步 幅 为 1、 填充 
大 小 为 2 的 3x3 滤波 器 ,以 及 一 个 规模 为 2、 步 幅 为 2 的 最 大 池 化 。 这 导致 参数 数量 的 减少 。 尽 
管 由 于 最 大 池 化 ， 模 型 的 规模 正在 减 小 ， 但 滤波 器 数量 随 着 层 数 的 增加 而 增加 。16 层 的 深度 模 
型 的 架构 如 图 2-13 所 示 。 
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图 2-13 





该 模型 拥有 1.38 亿 个 参数 ， 是 这 些 模 型 中 最 大 的 。 但 参数 的 均匀 性 相当 好 。 其 特点 是 ， 网 
络 越 深 , 随 着 滤波 名 数量 的 增多 , 图 像 越 小 。 其 中 一 项 数据 增强 技术 是 尺度 拌 动 (scale jittering )。 
在 该 增强 技术 中 ， 具 有 随机 大 小 的 一 个 边 被 认为 是 可 以 改变 尺度 的 。 


2.4.3 








谷歌 Inception-V3 模型 


Inception-V3 由 Szegedy 等 人 提出 ， 
了 ImageNet 竞赛 。 它 的 速度 和 规模 带 来 了 很 高 的 效率 。 它 的 参数 是 AlexNet 的 十 二 
分 之 一 。inception 是 构建 宏 架 构 的 微 架 构 。 每 个 隐藏 层 都 具有 图 像 的 更 高 级 别 表示 。 每 一 层 都 有 


2014 年 说 得 





使 用 池 化 或 其 他 层 的 选项 。inception 使 用 几 个 核 ， 而 不 是 





不 同 大 小 的 卷 积 ， 









































并 引入 了 具有 更 好 泛 化 方式 的 inception 概念 。 该 模型 在 








然后 将 它们 级 联 起 来 。 




















只 使 用 一 种 类 型 的 核 。 平均 池 化 之 后 是 
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核 参 数 可 以 根据 数据 进行 学 习 。 由 于 使 用 几 个 核 , 该 模型 可 以 检测 小 的 特征 以 及 更 高 的 抽象 。 
1 x 1 卷 积 将 减少 特征 并 因此 减少 计算 量 , 在 推断 期 间 占 用 更 少 的 RAM。 图 2-14 展示 了 最 简单 形 







































































式 的 inception 模块 ， 其 中 有 各 种 核 大 小 和 池 化 的 卷 积 选项 。 
滤波 器 级 联 
a = 
1x1 卷 积 3x3 卷 积 | 5x5 卷 积 3x3 最 大 池 化 
前 一 层 
图 2-14 





注意 ,不 同 于 AlexNet 和 VGG， 这 里 的 操作 是 并 行 发 生 的 。 输 出 的 容积 量 (volume ) 很 大 ， 
因此 引入 了 1 x 1 滤波 器 以 降低 维度 。 当 降低 的 维度 被 添加 到 体系 架构 时 ， 如 图 2-15 所 示 。 
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图 2-15 





这 个 模型 的 整个 架构 如 图 2-16 所 示 。 




















* 经 Szegedy 等 人 许可 转载 
图 2-16 
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该 模型 有 9 个 inception 模块 ， 共 100 层 ， 并且 它们 实现 了 良好 的 性 能 。 





2.4.4 微软 ResNet-50 模型 


ResNet 由 He 等 人 提出 , 并 在 2015 年 赢得 了 ImageNet 竞赛 。 这 种 方法 表明 可 以 训练 更 深层 
的 网 络 。 网 络 越 深 , 准确 率 就 越 趋 近 于 饱和 。 这 其 至 不 是 因为 过 拟 合 或 存在 大 量 参数 ， 而 是 因为 
减 小 了 训练 误差 。 这 是 由 无 法 反 向 传播 梯度 导致 的 。 可 以 通过 将 梯度 直接 发 送 到 具有 残 差 块 的 较 
深层 来 克服 ， 如 图 2-17 所 示 。 
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每 两 层 连接 形成 一 个 残 差 块 。 你 可 以 看 到 训练 是 在 各 层 之 间 传 递 的 。 通过 这 种 技术 , 反 向 传 
播 可 以 将 误差 带 到 更 早 的 层 。 


模型 定义 可 参考 https://github.com/tensorflow/tensorflow/tree/r1.4/tensorflow/python/ 
人 OP keras/ impl/keras/applications。 模型 的 每 一 层 都 定义 了 ,并 且 也 可 以 找到 在 ImageNet 
数据 集 上 预 训 练 的 权重 。 
2.4.5” ”SqueezeNet 模型 
为 缩小 模型 规模 和 减少 参数 数量 ，Iandola 等 人 引入 了 SqueezeNet 模型 。 
通过 用 1 x 1 滤波 器 替换 3 x 3 滤波 需 ， 网 络 变 得 更 小 ， 如 图 2-18 所 示 。 
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图 2-18 
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在 更 高 级 别 发 生 时 ，3 x 3 滤波 器 的 输入 数量 也 减少 了 层 的 下 采样 ， 提 供 了 大 的 激活 图 
( activation map )， 如 图 2-19 所 示 。 
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* 经 Iandola 等 人 许可 转 
图 2-19 
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2.4.6 ”空间 变换 网 络 模型 


Jaderberg 等 人 提出 了 空间 变换 网 络 ( spatial transformer network ) 模型 ， 该 模型 尝试 在 传递 给 
CNN 之 前 转换 图 像 。 这 与 其 他 网 络 不 同 ， 因 为 它 试图 在 卷 积 之 前 修改 图 像 。 该 网 络 通 过 学 习 参 
数 来 转换 图 像 。 参 数 的 学 习 是 通过 仿 射 变换 ( affine transformation ) 进行 的 。 使 用 仿 射 变换 ， 可 
以 实现 空间 不 变性 。 在 以 前 的 网 络 中 , 空间 不 变性 是 通过 最 大 池 化 层 实现 的 。 空 间 变换 网 络 的 布 
局 如 图 2-20 所 示 。 
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2-20 
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2.4.7 DenseNet 模型 


DenseNet 是 Huang 等 人 提出 的 ResNet 的 扩展 。 在 ResNet 的 块 中 , 前 一 层 通过 求 和 合并 到 未 
来 层 。 在 DenseNet 中 ， 前 一 层 通过 级 联合 并 到 未 来 层 。DenseNet 将 所 有 层 连 接 到 以 前 的 层 ， 并 


将 当前 层 连 接 到 下 一 层 。 | 


在 图 2-21 中 ， 可 以 看 到 如 何 将 特征 图 作为 输入 提供 给 其 他 层 。 





































































































* 经 Huang 等 人 许可 转载 
图 2-21 
它 提供 了 几 个 优点 ， 如 平滑 梯度 、 特 征 变换 等 。 它 也 减少 了 参数 的 数量 ， 如 图 2-22 所 示 。 
A 预期 结果 
卷 Dense Block 1 着 | 池 Dense Block 2 卷 | | 池 Dense Block 3 池 | | 线 
积 积 化 积 化 化 | 全 | 性 ‘horse” 
层 Ce 剧 层 Ce 导 局 Ce 居 层 
* 经 Huang 等 人 许可 转载 
图 2-22 





我 们 已 经 介绍 了 图 像 分 类 任务 的 所 有 最 新 算法 。 任何 一 个 架构 都 可 以 用 于 图 像 分 类 任务 。 下 
一 节 将 介绍 如 何 使 用 这 些 高 级 架构 训练 模型 以 预测 宠物 ， 并 提高 准确 率 。 


2.5 训练 猫 与 狗 的 模型 


在 本 节 中 ,我 们 将 准备 并 训练 一 个 预测 猫 与 狗 的 模型 ， 并 了 解 一 些 提高 准确 率 的 技巧 。 大 部 分 
的 图 像 分 类 问题 都 属于 这 种 范式 。 本 节 介 绍 的 技术 (如 数据 增强 和 迁移 学 习 ) 对 于 一 些 问题 很 有 用 。 
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2.5.1 准备 数据 


为 了 进行 分 类 ， 我 们 从 kaggle 下 载 数据 并 以 适当 的 格式 进行 存储 。 注 册 并 登录 kaggle 网 站 ， 
转 至 https://www.kaggle.com/c/dogs-vs-cats/data。 从 该 页 面 下 载 train.zip 和 testl.zip 文件 。train.zip 
文件 包含 25 000 个 宠物 图 像 的 数据 。 我 们 只 使 用 一 部 分 数据 来 训练 一 个 模型 。 具 有 更 多 计算 能 
力 (GPU ) 的 读者 可 以 使 用 比 建 议 更 多 的 数据 。 运行 以 下 脚本 重新 排列 图 像 并 创建 必要 的 文件 夹 : 


import os 
import shutil 














work_dir = '' # give your correct directory 
image_names = sorted(os.listdir(os.path.joinl(work_ dir, 'train'))) 


def copy_files (prefix_ str, range_start, range end, target dir): 

image_paths = [os.path.join(work_dir, 'train', prefix str + '.' + 
str(i) + 1 jog) 

for i in range(range_start, range_end)] 

dest_dir = os.path.join(work_ dir, 'data', target_dir, prefix_ str) 

os.makedirs (dest_dir) 

for image path in image paths: 

shutil.copy (image_path, dest_dir) 


Copy files(dog', 0» :21000;. “tra 
GOpY: TTLeS( oat ,0:1000; "tTan") 
copy_files('dog', 1000, 1400, 'test') 
copy_files('cat', 1000, 1400, 'test') 


对 于 该 实验 , 我们 只 使 用 1000 幅 猫 和 狗 的 图 像 。 因 此 , 将 图 像 0~ 999 从 下 载 的 文件 夹 复制 
到 cats 下 新 创建 的 train 文件 夹 。 同 样 ,将 1000 ~ 1400 复制 到 data/test/cat 中 , 将 10 ~ 999 复制 到 
train/dogs 中 , 将 1000 ~ 1400 复制 到 data/test/ dog 中 ， 这样 就 可 以 为 每 个 类 别 复制 1000 个 训练 样 
本 ， 并 为 每 个 类 别 复制 400 个 验证 示例 。 

















2.5.2 ”使 用 简单 CNN 进行 基准 测试 


让 我 们 在 这 个 数据 集 上 运行 以 前 的 simple_cnn 模型 ， 看 看 它 是 如 何 执行 的 。 这 个 模型 的 
性 能 将 成 为 我 们 判断 其 他 技术 的 基准 。 我 们 将 为 数据 加 载 和 训练 操作 定义 一 些 变量 ， 如 下 所 示 


image_height, image width = 150，150 

train_ dir = os.path.join(work_ dir, 'train') 
test_dir = os.path.join(work_dir, 'test') 
no_classes = 2 

no_validation = 800 

epochs = 2 

batch_size = 200 

no_train = 2000 

no_test = 800 

input_shape = (image height, image width, 3) 
epoch_steps = no_train // batch_ size 
test_steps = no_test // batch size 
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这 个 常数 用 于 本 节 讨 论 的 预测 猫 与 狗 的 训练 模型 的 技术 。 这 里 ,我 们 使 用 2800 幅 图 像 来 训 
练 和 测试 ， 这 个 数量 对 于 个 人 计算 机 的 RAM 是 合理 的 。 但 对 于 更 大 的 数据 集 来 说 ， 这 是 不 可 持 
续 的 。 如 果 我 们 一 次 只 加 载 一 批 图 像 进行 训练 和 测试 会 更 好 。 为 此 ，tf .keras 有 一 个 名 为 
ImageDataGenerator 的 类 ， 可 以 只 在 必要 时 读 取 图 像 o 假设 从 前 面 的 部 分 导入 了 一 个 
simple_cnn 模型 。 以 下 是 使 用 生成 器 加 载 图 像 的 示例 : 


generator_train = 
tf.keras.preprocessing.image.ImageDataGenerator (rescale=1. / 255) 
generator_test = 
tf.keras.preprocessing.image.ImageDataGenerator (rescale=1. / 255) 


这 个 定义 在 加 载 时 也 会 重新 缩放 图 像 。 接 下 来 ,我们 可 以 使 用 flow_from_ qdirectory 方 
法 从 目录 中 读 取 图 像 ， 如 下 所 示 : 


train images = generator_ train.flow from directoryl 
train dir, 

batch_size=batch _ size, 
target_size=(image width, image_ height)) 











test_images = generator_ test.flow from qirectory ( 


test_dir, 
batch_size=batch size, 
target_size=(image width, image_ height)) 


加 载 图 像 的 目录 、 图 像 的 批 次 规模 和 目标 大 小 都 作为 参数 传递 。 该 方法 执行 重新 缩放 并 分 批 传 
递 数据 以 拟 合 模型 。 该 生成 器 可 以 直接 用 于 拟 合 模型 。 可 以 像 下 面 这 样 使 用 模型 的 fit_generator 
方法 : 
simple_cnn model.fit_ generator( 
train_ images, 








steps_per_epoch=epoch_steps, 
epochs=epochs, 

validation data=test_images, 
validation_ steps=test_steps) 


该 模型 拟 合 来 自 训练 图 像 生成 器 的 数据 。 周 期 的 数量 由 训练 来 定义 , 传递 验证 数据 以 获得 模 
型 过 度 训 练 的 性 能 。 这 个 fit_generator 可 以 并 行 处 理 数据 和 模型 训练 。CPU 执行 缩放 ， 而 
GPU 可 以 执行 模型 训练 。 这样 可 带 来 计算 资源 的 高 效率 ,经 过 50 个 周期 后 , 这 个 模型 应 该 有 60% 
的 准确 率 。 接 下 来 看 看 如 何 通 过 增强 数据 集 来 改进 性 能 。 








2.5.3 ”增强 数据 集 


数据 增强 提供 了 扩大 数据 集 规模 的 方法 。 数据 增强 在 训练 期 间 引 入 噪声 ,从 而 在 模型 中 产生 
对 各 种 输入 的 稳健 性 。 该 技术 在 数据 集 很 小 并 且 可 以 与 其 他 技术 结合 使 用 的 场景 中 非常 有 用 。 接 
下 来 介绍 不 同类 型 的 增强 。 
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增强 技术 
增强 图 像 的 各 种 方式 如 下 。 


口 翻转 : 镜像 或 水 平 /垂直 方向 翻转 图 像 。 

口 随机 裁剪 : 随机 的 部 分 被 裁剪 ， 因 此 该 模型 可 以 处 理 遮 挡 。 

口 剪 切 : 图 像 变 形 以 影响 对 象 的 形状 。 

口 缩放 : 图 像 的 缩放 部 分 被 训练 以 处 理 不 同比 例 的 图 像 。 

口 旋转 : 旋转 对 象 以 处 理 对 象 中 各 种 程度 的 变化 。 

口 日 化 : 通过 主 成 分 分 析 完 成 ， 只 保留 重要 数据 。 

口 归 一 化 : 通过 标准 化 均值 和 方差 来 规范 像素 。 

口 通道 移动 : 移动 颜色 通道 ， 使 模型 对 各 种 伪 影 引起 的 颜色 变化 更 稳健 。 


所 有 这 些 技术 都 是 在 ImageDataGenerator 中 实现 的 ， 以 增加 数据 集 的 大 小 。 以 下 是 
generator_train 的 一 个 修改 版 本 ， 其 中 包含 前 面 讨论 的 一 些 增强 技术 : 


generator_train = tf.keras.preprocessing.image.TImageDataGenerator!( 
rescale=1. / 255, 
horizontal_flip=True, 
Zoom_range=0.3, 
shear_range=0.3,) 
在 前 面 的 代码 中 替换 generator_train 会 将 准确 率 提高 到 90%。 更 改 增强 的 参数 并 注意 这 
些 更 改 。 我 们 将 在 下 一 节 讨论 一 种 称 为 迁移 学 习 的 技术 ， 这 有 助 于 以 更 少 的 数据 训练 更 大 的 模型 。 
2.5.4 ”迁移 学 习 或 微调 模型 
迁移 学 习 是 从 一 个 大 型 数据 集 上 预 训练 过 的 模型 中 学 习 的 过 程 。 用 随机 初始 化 训练 一 个 模型 
通常 需要 时 间 和 能 量 来 获得 结果 。 使 用 预 训练 的 模型 来 初始 化 模型 可 以 更 快 地 收敛 ,节省 时 间 和 
精力 。 这 些 预 训练 的 模型 通常 经 过 了 精心 挑选 的 超 参 数 训练 。 
预 训练 模型 的 一 些 层 可 以 不 经 任何 修改 而 使 用 ， 或 者 进行 一 些 训练 以 适应 变化 。 在 本 节 中 ， 
我 们 将 学 习 如 何 对 在 数 百 万 个 类 别 的 InageNet 数据 集 上 训练 过 的 模型 进行 微调 或 迁移 学 习 。 
训练 瓶颈 特征 
前 面 介绍 的 模型 很 简单 ,因此 准确 率 可 能 会 较 低 。 应 该 以 这 些 简 单 的 模型 为 基础 建立 复杂 的 
模型 ， 而 不 能 从 头 开 始 构建 。 因 此 ， 需 要 提取 瓶颈 特征 并 对 分 类 需 进 行 训练 。 瓶 颈 特 征 是 由 复 杂 
的 架构 训练 数 百 万 幅 图 像 产 生 的 特征 。 通 过 前 向 传递 完成 图 像 训练 , 并 且 最 终 层 的 前 一 层 的 特征 
被 存储 下 来 。 然 后 ， 用 一 个 简单 的 逻辑 分 类 器 进行 分 类 训练 。 瓶 颈 层 提取 按 如 下 方式 进行 : 


generator = tf.keras.preprocessing.image.ImageDataGenerator (rescale=1. / 255) 






















































































model = tf.keras.applications.VGG16 (include top=False) 
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train_ images = generator.flow_ from directoryl 
train_ dir, 
batch_size=batch_ size, 
target_size=(image width, image height), 
class_mode=None, 
shuffle=False 

) 


train bottleneck_features = model.predict generator (train images, epoch_ steps) 


test_images = generator.flow_ from directoryl 
test_dir, 

batch_ size=batch_ size, 

target_size=(image width, image height), 

class_mode=None, 

shuffle=False 


) 





test_bottleneck_ features = model.predict generator(test_ images, test_steps) 


VGG 模型 被 用 于 预测 图 像 。 标 签 分 配 如 下 : 


train_ labels = np.array ([0] * int (no train / 2) 
test_labels = np.array ([0] * int (no _ test / 2) + 


具有 几 个 层 的 序列 模型 被 构建 、 编 译 并 用 瓶颈 特征 训练 。 可 以 用 如 下 代码 来 实现 : 


model = tf.keras.models.Sequential () 

model.add (tf.keras.layers.Flatten(input_shape=train bottleneck_ features.shape[1:])) 

model.add (tf.keras.layers.Dense(1024, activation='relu')) 

model.add (tf.keras.layers.Dropout (0.3)) 

model.add (tf.keras.layers.Dense(1, activation='softmax')) 

model.compile(loss=tf.keras.losses.categorical_ crossentropy, 
optimizer=tf.keras.optimizers.Adam(), 





+ [1] * int(no_ train / 2)) 
EL .Tne (no tesE 20 




















metrics=['accuracy']) 
使 用 如 下 代码 通过 模型 训练 这 些 瓶 颈 特征 : 


model.fitl( 
train_ bottleneck_ features, 
train_labels, 
batch_ size=batch size, 
epochs=epochs, 
validation data=(test_bottleneck_ features, test_labels)) 


这 给 训练 模型 提供 了 一 种 不 同 的 方法 , 并 且 在 训练 数据 较 少 时 很 有 用 。 这 通常 是 训练 模型 更 
快 的 方法 。 仅 使 用 预 训练 模型 中 最 后 的 激活 函数 来 适应 新 任务 。 这 个 想法 可 以 扩展 到 微调 一 些 层 。 























2.5.5 ”在 深度 学 习 中 微调 一 些 层 

可 以 加 载 一 个 预 训 练 的 模型 , 并 仅 训练 几 个 层 。 当 给 定 的 问题 与 模型 训练 的 图 像 非 常 不 同时 ， 
这 种 方法 的 效果 更 好 。 微 调 是 深度 学 习 中 常见 的 做 法 。 这 在 数据 集 较 小 时 具有 优势 ,优化 也 可 以 
更 快 地 获得 。 
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在 小 数据 集 上 训练 深度 网 络 会 导致 过 拟 合 。 使 用 微调 过 程 可 以 避免 这 种 过 拟 合 。 在 较 大 数据 
集 上 训练 的 模型 也 应 该 相似 , 因为 我 们 希望 激活 函数 和 特征 与 较 小 数据 集 类 似 。 你 可 以 从 存储 的 
权重 路 径 开始 ， 如 下 所 示 : 


top_model _ weights_ path = 'fc model.h5' 


加 载 VGG 模型 并 将 初始 层 设 置 为 不 可 训练 -VGG 模型 将 在 后 面 的 章节 详细 介绍 , 现在, 将 VGG 
视 为 一 种 在 图 像 数 据 上 运行 良好 的 深度 学 习 模 型 。 使 用 以 下 代码 用 新 的 可 训练 层 替换 全 连接 层 : 


model = tf.keras.applications.VGG16 (include top=False) 


可 以 在 VGG 模型 之 上 建立 一 个 小 型 的 双 层 前 饶 网 络 ， 通 常 使 用 隐 茂 单元、 激活 和 丢弃 ， 如 
下 所 示 : 


model_fine tune = tf.keras.models.Sequential () 

model_fine tune.add(tf.keras.layers.Flatten(input_shape=model .output_shape)) 
model_fine tune.add (tf.keras.layers.Dense(256, activation='relu')) 
model_fine tune.add(tf.keras.layers.Dropout (0.5)) 

model_fine tune.add(tf.keras.layers.Dense(no_classes, activation='softmax')) 


顶层 模型 还 需要 加 载 已 经 完全 训练 过 的 权重 。 然 后 可 以 将 顶层 模型 添加 到 卷 积 基 中 : 


model_fine tune.load weights (top_model weights_path) 
model.add (model_fine_ tune) 


我 们 可 以 将 前 25 层 直 到 最 后 一 个 卷 积 块 设置 为 不 可 训练 ， 这 样 它们 的 权重 就 不 会 被 更 新 。 
只 有 其 他 层 会 被 更 新 。 


for vgg_layer in model.layers[:25]: 
vgg_layer.trainable = False 


使 用 梯度 下 降 优化 器 以 量 级 为 4 的 低 学 习 速 率 编译 模型 


model.compile(loss='binary_crossentropy', 
optimizer=tf.keras.optimizers.SGD(lr=1le-4, momentum=0.9), 
metrics=['accuracy']) 


我 们 可 以 将 之 前 介绍 的 增强 技术 与 剪 切 、 缩 放 和 翻转 相 结合 .生成 器 可 以 添加 来 自 目 录 的 流 、 
训练 数据 集 和 验证 数据 集 。 现 在 该 模型 可 以 与 数据 增强 结合 进行 微调 。 这 种 训练 方式 比 以 前 的 所 
有 方法 都 有 更 好 的 准确 性 。 表 2-1 是 使 用 迁移 学 习 的 指导 。 
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表 2-1 
数据 规模 相似 数据 集 不 同 数据 集 
小 数据 微调 输出 层 微调 更 深 的 层 
大 数据 微调 整个 模型 从 头 训练 














根据 数据 大 小 ， 可 以 确定 要 微调 的 层 数 。 数 据 越 少 , 要 微调 的 层 数 就 越 少 。 我 们 已 经 看 到 如 
何 使 用 迁移 学 习 技术 来 提高 模型 的 准确 率 。 
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2.6 ”开发 现实 世 弄 的 应 用 


识别 出 猫 和 狗 是 一 个 很 酷 的 问题 , 但 不 太 可 能 成 为 一 个 重要 问题 。 实际 产 品 中 使 用 的 图 像 分 
类 可 能 不 同 。 你 可 能 有 不 同 的 数据 、 目 标 等 。 在 本 节 中 ,你 将 学 习 解 决 这 些 不 同 设置 的 技巧 和 容 
门 。 解 决 新 问题 时 要 考虑 的 因素 如 下 。 


口 目标 数量 : 这 是 一 个 10 个 类 别 的 问题 还 是 10 000 个 类 别 的 分 类 问题 ? 

口 类 内 差异 有 多 大 ? 例如 ， 不 同类 型 的 猫 是 否 必 须 在 一 个 类 别 标签 下 进行 识别 ? 

口 类 间 差 异 有 和 多大? 例如， 是 否 需 要 识别 不 同 的 猫 ? 

口 数据 规模 有 多 大 ? 

口 数据 的 平衡 程度 如 何 ? 

口 是 否 已 经 有 一 个 用 很 多 图 像 训练 的 模型 ? 

口 部 署 推 新 时 间 和 模型 规模 的 必要 条 件 是 什么 ?是 在 iPhone 上 50 毫秒 还 是 在 Google 云 平 
台 上 10 毫秒 ? 可 以 消耗 多 少 内 存 来 存储 模型 ? 


在 处 理 图 像 分 类 问题 时 ， 尝试 回答 这 些 问 题 。 基 于 这 些 答案 , 我 们 可 以 设计 训练 架构 并 提高 
准确 率 ， 如 下 一 节 所 述 。 




































































2.6.1 选择 正确 的 模型 


架构 有 很 多 选项 。 基 于 部 署 的 灵活 性 ， 你 可 以 选择 模型 。 请 记 住 ， 卷 积 层 更 小 、 更 慢 ， 密 集 
层 则 更 大 、 更 快 。 在 规模 、 运 行 时 间 和 准确 率 上 要 进行 权衡 。 在 最 终 决 定之 前 测试 所 有 架构 是 明 
智之 举 。 基 于 应 用 场景 ， 某 些 模 型 可 能 比 其 他 模型 更 好 。 你 可 以 减 小 输入 规模 以 加 快 推测 速度 。 
可 以 根据 下 方 所 述 的 指标 来 选择 架构 。 


2.6.2 ”处 理 欠 拟 合 和 过 拟 合 场景 


一 个 模型 对 于 解决 的 问题 有 时 可 能 太 小 或 太 大 。 这 可 以 分 别 被 归 类 为 欠 拟 合 和 过 拟 合 。 当 模 
型 太 小 时 会 出 现 欠 拟 合 , 当 训练 准确 率 较 低 时 可 以 进行 测量 。 当 模型 太 大 并 且 训 练 准确 率 和 测试 
准确 率 之 间 存 在 很 大 差距 时 会 出 现 过 拟 合 。 


欠 拟 合 可 以 通过 以 下 方法 解决 : 


口 获取 更 多 数据 ; 
口 尝试 一 个 更 大 的 模型 ; 
口 如 果 数 据 很 小 ， 尝 试 迁移 学 习 技术 或 进行 数据 增强 。 


过 拟 合 可 以 通过 以 下 方法 解决 : 
口 使 用 丢弃 和 批 归 一 化 等 技术 进行 正则 化 ; 
















































































D 增强 数据 集 。 


时 刻 注意 损失 值 的 变化 。 送 代 过 程 中 损失 应 该 减少 ， 如 果 损 失 不 减少 ， 则 表示 训练 已 停止 。 
一 个 解决 方案 是 尝试 一 个 不 同 的 优化 器 。 类 别 失衡 可 以 通过 加 权 损失 函数 来 处 理 。 总 是 使 用 
TensorBoard 查看 汇总 。 很 难 估计 需要 多 少数 据 。 本 节 是 训练 任何 深度 学 习 模 型 的 最 佳 课程 。 接 
下 来 将 介绍 一 些 特定 于 应 用 的 指导 原则 。 




















2.6.3 ”从 面部 检测 性 别 和 年 龄 


一 些 应 用 可 能 需要 从 面部 检测 性 别 和 年 岭 。 人 脸 图 像 可 以 通过 人 脸 检 测 器 获得 。 裁剪 后 的 人 
脸 图 像 可 以 作为 训练 数据 ， 并 且 应 该 给 出 相似 的 裁剪 后 的 脸 部 进行 推 凯 。 根 据 需 要 的 推断 时 间 ， 
可 以 选择 OpenCV 或 CNN 人 脸 检 测 需 。 训练 可 以 使 用 Inception 或 ResNet。 如 果 由 于 是 视频 而 要 
求 的 推断 时 间 少 得 多 时 ,最 好 使 用 三 个 卷 积 ,然后 使 用 两 个 全 连接 层 。 请 注意 , 年 龄 数据 集 通 常 
存在 巨大 的 类 别 不 平衡 ， 因 此 使 用 不 同 的 度量 指标 ( 如 精确 率 和 召回 率 ) 会 有 所 帮助 。 

































































2.6.4 微调 服装 模型 


微调 服装 模型 是 一 个 不 错 的 选择 。 具 有 多 个 分 类 属性 的 softmax 层 在 这 里 会 很 有 用 。 属 性 可 
以 是 模式 、 颜 色 等 。 
































2.6.5 “品牌 安全 


使 用 支持 向 量 机 〈SVM ) 训练 瓶颈 层 是 一 个 很 好 的 选择 ， 因 为 图 像 在 各 个 类 中 可 能 会 有 很 大 
不 同 。 这 通常 用 于 内 容 审核 , 以 帮助 避免 显 式 的 图 像 。 你 已 经 学 会 了 如 何 解决 图 像 分 类 中 的 新 问题 。 








2.7 小 结 


本 章 介绍 了 用 于 训练 分 类 任务 的 基本 而 有 用 的 模型 。 我 们 学 习 了 使 用 Keras 和 TensorFlow 
API 的 MNIST 数 据 集 的 简单 模型 ， 了解 了 如 何 利 用 TensorBoard 来 观看 训练 过 程 , 讨论 了 一 些 最 
新 架构 的 具体 应 用 , 还 介绍 了 几 种 提高 准确 率 的 方法 ,如 数据 增强 、 上 瓶颈 层 训练 以 及 微调 预 训练 
的 模型 。 此 外 还 介绍 了 训练 新 模型 的 技巧 和 究 门 。 


下 一 章 将 介绍 如 何 将 深度 学 习 模 型 可 视 化 。 我 们 会 部 署 经 过 训练 的 模型 进行 推断 , 学 习 如 何 
使 用 经 过 训练 的 层 进行 图 像 搜 索 ， 了 解 自 编码 器 ( autoencoder ) 的 概念 并 将 其 用 于 特征 的 维 数 。 
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深度 学 习 也 可 以 称 为 表示 学 习 (representation learning )， 因 为 要 在 训练 时 学 习 模 型 中 的 特征 
或 表示 。 在 训练 过 程 中 隐藏 层 生 成 的 视觉 特征 可 用 于 计算 距离 度量 指标 。 这些 模型 根据 分 类 任务 
学 习 如 何 检测 各 层 的 边缘 、 模 式 等 。 

本 章 涉 及 以 下 主题 : 
口 如 何 从 经 过 分 类 训练 的 模型 中 提取 特征 ; 
邮 口 如 何在 生产 系统 中 使 用 TensorFlow Serving 进行 更 快 的 推断 ; 

口 如 何 使 用 这 些 特 征 计算 一 个 查询 图 像 与 一 组 目标 之 间 的 相似 度 ; 

电 口 使 用 分 类 模型 进行 排序 ; 
口 如 何 提高 检索 系统 的 速度 ; 
口 从 整体 上 看 系统 的 架构 ; 
口 当 目 标 图 像 过 多 时 ， 使 用 自 编 码 需 学 习 一 个 紧凑 描述 子 (descriptor ); 
口 训练 一 个 去 噪 自 编码 器 。 























3.1 理解 视觉 特征 


深度 学 习 模 型 经 常 因 不 可 解释 而 受到 批评 。 因 为 人 们 难以 明晰 深度 学 习 模 型 的 工作 机 理 , 基 
于 神经 网 络 的 模型 通常 被 认为 是 一 个 黑 盒 子 。 由 于 激活 函数 ,深度 学 习 模型 各 层 对 图 像 进行 转换 
是 非 线 性 的 ,因此 不 易 可 视 化 。 目 前 已 经 开发 出 来 一 些 方法 , 通过 将 深度 网 络 各 层 可 视 化 来 应 对 
其 不 可 解释 性 的 批评 。 在 本 节 中 ， 我 们 将 尝试 将 深层 可 视 化 ， 以 理解 模型 的 工作 机 理 。 
可 以 使 用 模型 的 激活 和 梯度 实现 可 视 化 。 通 过 以 下 技术 激活 可 视 化 。 
口 最 近邻 : 可 以 获取 图 像 的 层 激活 ， 并 一 起 看 到 该 激活 最 相近 的 图 像 。 
口 降 维 : 可 以 通过 主 成 分 分 析 (principal component analysis ，PCA ) 或 上 分 布 式 随机 邻 域 般 
和 人 (frdistributed stochastic neighbor embedding，t-SNE ) 来 降低 激活 的 维度 ， 以 便 在 二 维 
或 三 维 中 进行 可 视 化 。 PCA 通过 向 最 大 方差 方向 投影 值 来 减 小 维度 。t-SNE 通过 将 最 近 点 
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映射 到 三 个 维度 来 减少 维 数 。 降 维 的 具体 使 用 和 技术 超出 了 本 书 的 范围 。 为 了 解 更 多 关 
于 降 维 的 信息 ， 建 议 参考 基本 的 机 器 学 习 资料 。 








0 维基 百科 是 理解 降 维 技术 的 一 个 好 资料 。 


口 最 大 图 块 : 一 个 神经 元 被 激活 ， 有 具有 最 大 激活 值 的 相应 图 块 被 捕捉 到 。 
口 遮挡 (occlusion): 图 像 在 不 同 的 位 置 被 遮挡 (阻挡 ), 并 且 把 激活 值 显示 为 热 图 ( heat map )， 
以 理解 图 像 的 哪些 部 分 是 重要 的 。 


在 接 下 来 的 几 节 中 ， 我 们 将 看 到 如 何 实现 这 些 特征 的 可 视 化 。 


























3.1.1 深度 学 习 模 型 的 可 视 化 激活 


任何 模型 架构 都 可 以 通过 任何 层 的 滤波 器 进行 可 视 化 。 使 用 该 技术 只 能 理解 最 初 的 一 些 层 。 
使 用 最 近邻 方法 对 最 后 一 层 很 有 用 。 当 用 最 近邻 排列 时 ，ImageNet 数据 集 如 图 3-1 所 示 。 
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看 着 这 幅 图 像 ， 你 可 以 看 到 相同 的 物体 一 起 出 现 。 有 趣 的 是 , 像 狗 、 猴 子 和 猎豹 这 样 的 动物 
一 起 出 现 了 ， 尽 管 它 们 没有 在 一 个 标签 下 训练 。 当 对 象 相似 时 ， 图 像 的 最 近邻 可 视 化 是 有 用 的 ， 
因此 我 们 可 以 理解 模型 的 预测 。 最 后 一 层 也 可 以 通过 降 维 技术 ( 例如 主 成 分 分 析 和 tSNE ) 进行 
可 视 化 。 我 们 将 在 下 一 节 中 看 到 使 用 降 维 的 可 视 化 实现 。 

















3.1.2 骨 入 可 视 化 

使 用 TensorBoard 可 以 在 二 维 或 三 维 中 对 幅 信 层 (最 后 一 层 的 前 一 层 ) 进行 可 视 化 。 本 节 中 
的 代码 片段 假定 来 自 图 像 分 类 一 章 中 训练 后 的 卷 积 神经 网 络 模型 。 首先 , 我 们 需要 一 个 元 数据 文 
件 , 它 是 一 个 制 表 符 分 隔 的 文件 。 元 数据 文件 的 每 一 行 都 应 该 包含 将 要 可 视 化 的 图 像 的 标签 。 这 
里 需要 一 个 新 变量 来 存储 在 会 话 创建 和 初始 化 之 间 定 义 的 答 入 ， 如 下 所 示 : 


no_embedding_ data = 1000 
embedding_ variable = tf.Variable(tf.stackl( 
mist.test.images[:no_embedding datal], axis=0), trainable=False) 


我 们 将 采用 MNIST 测试 数据 并 创建 一 个 用 于 可 视 化 的 元 数据 文件 ， 如 下 所 示 : 


metadata_path = '/tmp/train/metadata.tsy' 


























with open(metadata path, 'w') as metadata file: 
for i in range(no_embedding_ data): 
metadata_file.write('{}\n'.format\( 
np.nonzero(mnist.test.labels[::1])[1:] [0] [i])) 


通过 设置 上 述 代 码 中 所 示 的 参数 , 可 以 使 腊 入 变量 不 可 训练 。 接 下 来 , 必须 定义 投影 器 配置 : 
包括 一 个 戏 入 变量 名 称 tensor_name、 元 数据 文件 的 路 径 和 一 个 精灵 图 像 ( sprite image )。 精灵 
图 像 是 一 个 具有 一 些小 图 像 的 图 像 ， 用 于 表示 用 仍 人 来 可 视 化 的 标签 。 如 下 是 定义 嵌入 的 投影 的 
代码 : 
from tensorflow.contrib.tensorboard.plugins import projector 
projector_config = projector.ProjectorConfig() 
embedding_projection = projector_config.embeddings.add() 
embedding_projection.tensor_name = embedding_ variable.name 
embedding_projection.metadata path = metadata_ path 
embedding_projection.sprite.image path = os.path.join(work_ dir + 


'/mnist_10k_sprite.png') 
embedding_projection.sprite.single_ image dim.extend([28, 28]) 


必须 指定 精灵 图 像 维度 ， 然 后 可 以 使 用 投影 器 通过 汇总 写 人 器 和 配置 来 可 视 化 甬 入 ， 如 下 
所 示 : 


projector.visualize embeddings (train summary_writer, projector_ config) 
tf.train.Saver() .save(session, '/tmp/train/model.ckpt', global_step=1) 


模型 与 会 话 一 起 保存 。 然 后 转 到 TensorBoard 查看 如 图 3-2 所 示 的 可 视 化 。 
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为 获得 与 屏幕 截图 相似 的 可 视 化 效果 ， 需 要 用 按钮 选择 T-SNE 和 颜色 。 你 可 以 看 到 数字 是 
如 何 一 起 出 现 的 。 这 种 可 视 化 对 于 检查 数据 和 经 过 训练 的 瞬 入 非常 有 用 。 这 是 TensorBoard 的 为 

















一 个 强大 功能 。 在 下 一 节 中 ， 我 们 将 实现 可 视 化 的 引导 式 反 向 传播 ( guided backpropagation )。 


引导 式 反 向 传播 





播 。 在 本 节 中 ， 我 们 将 实现 引导 式 反 向 传播 ， 将 这 些 特征 可 视 化 。 


我 们 将 定义 规模 并 加 载 VGG 模型 ， 如 下 所 示 : 


image_widath，jimage_height = 128, 128 


vgg_model = tf.keras.applications.vgg16.VGG16 (includqe_top=False) 


这 些 层 由 一 个 字典 组 成 ,字典 中 层 的 名 作为 键 ， 来自 模型 的 层 和 权重 作为 键 值 以 便于 访问 。 





现在 我 们 将 从 第 五 个 块 plock5_conv1 开始 得 到 第 一 个 卷 积 层 ， 用 于 计算 可 视 化 。 输 入 和 输出 


定义 如 下 : 








直接 可 视 化 特征 可 能 不 会 提供 太 多 的 信息 。 因此, 我 们 使 用 反 向 传播 的 训练 过 程 来 激活 滤波 
带 ， 以 实现 更 好 的 可 视 化 。 由 于 我 们 可 以 选择 哪些 神经 元 用 于 反 向 传播 ， 因此 称 为 引导 式 反 向 传 
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input_image = vgg_model.input 

vgg_layer_dict = dict([(vgg_layer.name, vgg_layer) for vgg_layer in 
vgg_model.layers[1:]]) 

vgg_layer_output = vgg_layer_dict['block5_convl'] .output 


我 们 必须 定义 损失 函数 。 损 失 函 数 将 最 大 化 特定 层 的 激活 值 。 因 为 这 里 试图 最 大 化 损失 函数 ， 
所 以 这 是 一 个 梯度 上 升 过 程 ， 而 不 是 通常 的 梯度 下 降 过 程 。 对 于 梯度 上 升 ， 平 滑梯 度 很 重要 。 所 
以 我 们 通过 归 一 化 像素 梯度 来 平滑 这 种 情况 下 的 梯度 。 这 样 的 损失 函数 收敛 得 相当 快 。 

应 该 对 图 像 的 输出 进行 归 一 化 将 其 可 视 化 回来 , 在 优化 过 程 中 使 用 梯度 上 升 来 获得 函数 的 最 
大 值 。 我 们 可 以 通过 定义 评估 器 和 梯度 开始 梯度 上 升 优化 。 现 在 要 定义 损失 函数 并 且 计算 梯度 。 
迭代 器 在 迁 代 过 程 中 计算 损失 和 梯度 值 ， 如 下 所 示 : 






































filters = [ 
for filter_idx in range(20): 
loss = tf.keras.backend.mean(vgg_layer_ output[:, :, :, filter_idx]) 


gradients = tf.keras.backend.gradients (loss, input_image) [0] 
gradient_mean_ square = 

tf.keras.backend.mean (tf.keras.backend.square (gradients)) 
gradients /= (tf.keras.backend.sqrt (gradient_ mean _ square) + le-5) 
evaluator = tf.keras.backend.function([input_image], [loss, gradients]) 


输入 是 一 个 添加 了 一 些 噪声 的 随机 灰 度 图 像 。 生 成 随机 图 像 并 进行 缩放 ， 如 下 所 示 : 


gradient_ascent_step = 1. 
input_image_data = np.random.random( (1, image width, image height, 3)) 
input_image_data = (input_image data - 0.5) * 20 + 128 


现在 开始 优化 损失 函数 。 对 于 某 些 滤波 器 ， 损 失 值 可 能 为 0， 这些 应 该 忽略 ， 如 下 所 示 : 


for i in range(20) : 
loss_value, gradient values = evaluator([input_image_datal]) 
input_image_ data += gradient values * gradient_ ascent_step 
# print('Loss :', loss_value) 
if loss_value <= 0.: 
break 


在 这 个 优化 之 后 ,通过 均值 减法 和 调整 标准 偏差 完成 归 一 化 。 然 后 ,可 以 缩放 滤波 需 并 将 其 
剪裁 为 梯度 值 ， 如 下 所 示 : 
if loss_value > 0: 


filter = input_image datal[0] 





























filter -= filter.mean() 

filter /= (filter.std() + 1e-5) 

EE 二 :01 

filter += 0.5 

filter = np.clip(filter, 0, 1) 

FT 区 255 

filter = np.clip(filter, 0, 255) .astype('uint8') 
1 


lters.append( (filter, loss_value)) 
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这 些 滤波 絮 是 随机 挑选 出 来 的 ， 并 在 这 里 可 视 化 ( 图 3-3 )。 





图 3-3 

如 图 3-3 所 示 的 拼接 图 像 并 生成 输出 的 代码 与 代码 包 一 起 提供 ,因为 内 容 的 感受 野 变 得 更 大 ， 

所 以 可 视 化 在 后 面 的 层 变 得 复杂 。 一 些 滤波 器 只 是 旋转 了 ， 所 以 看 起 来 相似 。 在 这 种 情况 下 可 以 
清楚 地 看 到 可 视 化 的 层次 结构 ， 如 Zeiler 等 人 所 示 。 图 3-4 显示 了 不 同 层 的 直接 可 视 化 效果 。 


























* 经 Zeiler 等 人 许可 转载 


图 3-4 


前 两 层 看 起 来 像 边缘 和 角落 检测 器 。 类 似 Gabor 的 滤波 器 只 出 现在 第 三 层 。Gabor 滤波 器 是 
线性 的 , 传统 上 用 于 纹理 分 析 。 我 们 已 经 借助 引导 式 反 向 传播 并 且 直 接 看 到 了 特征 的 可 视 化 。 接 
下 来 将 介绍 如 何 实现 用 于 可 视 化 的 DeepDream。 


3.1.3 DeepDream 


神经 元 激活 可 以 在 网 络 中 的 某 一 层 放大 ,而 不 是 合成 图 像 。 放 大 原始 图 像 以 查看 特征 效果 的 
概念 称 为 DeepDream。 创 建 DeepDream 的 步骤 如 下 。 
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(1) 获取 一 幅 图 像 ， 并 从 CNN 中 挑选 一 层 

(2) 在 特定 层 上 获取 其 激活 。 

(3) 修改 梯度 ， 使 梯度 和 激活 相等 。 

(4) 计算 图 像 的 梯度 和 反 向 传播 。 

(5) 图 像 必 须 进 行 拌 动 并 使 用 正则 归 一 化 。 

(6) 像素 值 应 该 裁剪 。 

(7) 为 了 达到 分 形 的 效果 对 图 像 进行 多 尺度 处 理 。 


首先 导入 相关 的 包 : 


import os 

import numpy as np 

import PIL.Image 

import urllib.request 

from tensorflow.python.platform import gfile 
import zipfile 


inception 模型 是 在 Imagenet 数据 集 和 Google 提供 的 模型 文件 上 预 训练 的 。 我 们 可 以 下 载 该 
模型 并 将 其 用 于 该 示例 。 下 载 并 解压 缩 这 个 模型 文件 的 ZIP 存档 到 一 个 文件 夹 中 ， 如 下 所 示 : 


model_url = 
'https://storage.googleapis.com/download.tensorflow.org/models/inception5Sh.zip' 




















file name = model url.split('/')[-1] 
file path = os.path.join(work_ dir, file name) 


if not os.path.exists (file path): 

file path, _ = urllib.request.urlretrieve(model url, file path) 
zip_handle = zipfile.ZipFile(file path, 'r') 
zip_handle.extractall (work_dir) 


zip_handle.close() 


这 些 命令 应 该 在 工作 目录 中 创建 三 个 新 文件 。 该 预 训练 的 模型 可 以 加 载 到 会 话 中 ， 如 下 所 示 : 


graph = tf.Graph() 
session = tf.InteractiveSession (graph=graph) 
model_ path = os.path.join(work_dir, 'tensorflow_ inception graph.pb') 
with gfile.FastGFile(model path, 'rb') as f: 
graph_ defnition = tf.GraphDef() 
graph_ defnition.ParseFromString(f.read()) 


会 话 从 计算 图 的 初始 化 开始 。 然 后 将 已 下 载 模型 的 计算 图 定义 加 载 到 内 存 中 。 作 为 预 处 
时 步 ， ImageNet 平 均值 必须 从 输入 中 减 去 。 然 后 将 预 处 理 后 的 图 像 输入 到 计算 网 中 : 


input_placeholder = tf.placeholder (np.float32, name='input') 
imagenet mean value = 117.0 

preprocessed_ input = tf.expand dims (input_ placeholder-imagenet mean value, 0) 
tf.import_graph_ def (graph defnition, {'input': preprocessed input}) 
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现在 会 话 和 计算 图 已 准备 好 进行 推断 。 使 用 双 线 性 插值 将 需要 一 个 resize_image 子 数 。 
可 以 添加 一 个 resize 函数 方法 ,该 方法 使 用 TensorFlow 会 话 调整 图 像 的 大 小 ， 如 下 所 示 : 


def resize image (image, size): 
resize placeholder = tf.placeholder (tf.float32) 
resize_ placeholder_ expanded = tf.expand_ dims (resize placeholder, 0) 
resized_image = tf.image.resize bilinear (resize placeholder_expanded, 
| 


return session.run(resized_ image, feed dict={resize placeholder: image}) 


来 自 工作 目录 的 图 像 可 以 加 载 到 内 存 中 并 转换 为 浮 点 值 ， 如 下 所 示 : 


image_name = 'mountain.jpg' 
image = PIL.Image.open (image_name) 
image = np.float32 (image) 


加 载 的 图 像 显 示 在 这 里 作为 参考 ( 图 3-5 )。 














图 3-5 





这 里 定义 了 售 频 程 (octave ) 数 、 大 小 和 缩放 比例 : 


no_octave = 4 
scale = 1.4 
window_size = 51 


这 些 值 适 用 于 此 处 显示 的 示例 。 对 于 其 他 图 像 , 需要 根据 其 大 小 调整 这 些 值 。 可 以 选择 一 个 
层 用 于 “做 梦 ”， 该 层 的 平均 值 将 成 为 目标 函数 ， 如 下 所 示 : 
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Score = tf.reduce mean(objective_fn) 
gradients = tf.gradients (score, input_placeholder) [0] 





计算 这 些 图 像 的 梯度 以 进行 优化 。 倍 频 程 图 像 可 以 通过 调整 图 像 的 大 小 来 计算 各 种 比例 并 找 
出 差异 ， 如 下 所 示 : 


octave_images = [] 
for i in range(no_octave - 1): 
image_height_width = image.shape[:2] 


scaled_ image = resize_ image (image, np.int32 (np.float32 (image height width) / 
scale)) 


image_difference = image - resize image(scaled image, image_ height width) 
image = scaled_ image 


octave_images.append (image difference) 


现在 可 以 使 用 所 有 售 频 程 图 像 进 行 优化 。 窗 口 滑 过 图 像 ， 计 算 梯度 激活 以 创建 “梦境 ”， 如 
下 所 示 : 


for octave_idx in range (no_octave): 
if octave_ idx > 0: 








image_difference = octave_ images[-octave_idx] 


image = resize _ image (image, image_ difference.shape[:2]) + 
image_difference 


for i in range(10): 
image_heigth, image width = image.shape[:2] 
sx, Sy = np.random.randint (window_size, size=2) 
shifted_ image = np.roll (np.roll (image, sx, 1), sy, 0) 
gradient_ values = np.zeros_like (image) 


for y in range(0, max(image_ heigth - window_size // 2, window_size), 
window_size): 


for x in range(0, max(image width - window_ size // 2, window_size), 
window_size): 
sub = shifted image[ly:y + window_size, x:Xx + window_ size] 
gradient windows = session.run(gradients, {input_placeholder: sub}) 
gradient values[y:y + window_ size, x:x + window_ size]= gradient _ windows 


gradient windows = np.roll(np.roll(gradient values, -sx, 1), -sy, 0) 
image += gradient windows * (1.5 / (np.abs (gradient windows) .mean() + 1e-7)) 

















现在 ,创建 DeepDream 的 优化 已 完成 ， 并 可 通过 剪 切 值 保存 ， 如 下 所 示 : 


image /= 255.0 
image = np.uint8(np.clip(image, 0, 1) * 255) 
PIL.Image.fromarray (image) .save('dream ' + image name, 'jpeg') 








在 本 节 中 ， 我们 看 到 了 创建 DeepDream 的 过 程 。 结 果 如 图 3-6 所 示 。 
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图 3-6 

正如 所 见 ， 到 处 是 激活 的 犬 旺 蛤 (dog slu )。 我 们 可 以 尝试 其 他 层 并 查看 结果 。 这 些 结果 可 
以 用 于 艺术 目的 。 同样 ， 可 以 激活 其 他 层 以 产生 不 同 的 伪 像 。 下 一 节 将 介绍 一 些 可 以 欺骗 深度 学 
习 模 型 的 对 抗 样本 。 











3.1.4 ”对抗 样本 

图 像 分 类 算法 已 经 在 几 个 数据 集 上 达到 了 人 类 级 别 的 准确 率 。 但 他 们 很 容易 被 对 抗 样本 其 
骗 。 对 抗 样本 是 合成 的 图 像 ， 它 通过 欺骗 一 个 模型 来 产生 需要 的 结果 。 取 任意 图 像 并 选择 一 个 不 
正确 的 随机 的 目标 类 ， 如 图 3-7 所 示 。 这 幅 图 像 可 以 用 噪声 修改 ， 直 到 网 络 被 欺骗 。 图 3-7 显示 
了 对 该 模型 进行 对 抗 攻击 的 例子 。 
























十 0.007x 上 
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图 3-7 


在 该 图 中 , 左 侧 显示 的 图 像 具有 特定 标签 的 58% 置 信和 度 。 左 侧 的 图 像 与 中 间 显 示 的 噪声 结合 
在 一 起 形成 右 侧 的 图 像 。 对 于 人 来 说 ， 有 噪声 的 图 像 看 起 来 是 一 样 的 。 但 带 有 噪声 的 图 像 可 以 用 
97% 的 置信 和 度 以 不 同 的 标签 进行 预测 。 尽 管 图 像 具 有 非常 不 同 的 对 象 , 但 要 将 高 置信 度 分 配给 一 
个 特定 的 示例 。 这 是 深度 学 习 模 型 的 一 个 问题 ， 因 此 ， 你 应 该 明白 这 适用 于 何 处 。 


口 对 抗 样 本 甚至 可 以 在 没有 访问 模型 的 情况 下 生成 。 你 可 以 训练 自己 的 模型 ， 产 生 一 个 对 
抗 样本 ， 并 且 仍 然 可 以 坎 骗 另外 一 个 不 同 的 模型 。 
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口 虽然 在 实际 中 很 少 发 生 ， 但 当 有 人 试图 欺骗 系统 来 发 送 垃圾 邮件 或 导致 崩溃 时 ， 它 就 成 
了 一 个 真正 的 问题 。 
口 所 有 的 机 器 学 习 模型 都 容易 出 现 这 个 问题 ， 而 不 仅仅 是 深度 学 习 模型 。 


考虑 到 对 抗 样本 , 你 应 该 了 解 在 安全 关键 系统 上 部 署 深度 学 习 模型 的 后 果 。 下 一 节 将 介绍 如 
何 利 用 TensorFlow Serving 获得 更 快 的 推断 。 
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任何 新 数据 都 可 以 传递 给 模型 以 获得 结果 。 从 图 像 中 获取 分 类 结果 或 特征 的 过 程 称 为 推断 。 
训练 和 推断 通常 发 生 在 不 同 的 计算 机 上 ,并 在 不 同 的 时 间 执 行 。 我 们 将 学 习 存 储 一 个 模型 、 执 行 
推断 并 使 用 TensorFlow Serving 作为 具有 和 良好 延迟 和 生 吐 量 的 服务 器 。 
































3.2.1 导出 模型 


训练 后 的 模型 必须 导出 并 保存 。 权 重 、 偏 差 和 图 都 要 存储 下 来 以 供 推断 。 我 们 将 训练 一 个 
MNIST 模型 并 存储 它 。 使 用 以 下 代码 ， 从 定义 所 需 的 常量 开始 : 


work_dir = '/tmp' 
model_version = 9 
training_iteration = 1000 
input_size = 784 
no_classes 10 
batch_size = 100 
total_batches = 200 


model_version 可 以 是 一 个 整数 ， 用 于 指定 我 们 要 为 服务 导出 哪个 模型 。feature config 存 
储 为 一 个 带 有 占 位 符 名 称 及 其 相应 数据 类 型 的 字典 。 预 测 的 类 和 标签 都 被 映射 好 。 类 别 占 位 符 可 
以 与 API 一 起 使 用 。 


tf_example = tf.parse_example( 人 tt.placeholder(tft.string，Dname='tf_example')， 
{'x': tf.FixedLenFeature (shape=[784], 














dtype=tf.float32), }) 
x_input = tf.identity(tf_example['x'], name='x') 


使 用 下 面 的 代码 ， 可 以 用 权重 、 偏 差 、logits 和 优化 器 来 定义 一 个 简单 的 分 类 器 : 


y_input = tf.placeholder (tf.float32, shape=[None, no_classes]) 

weights = tf.Variable(tf.random normal ([input_size, no_classes])) 

bias = tf.Variable(tf.random normal([no_classes])) 

logits = tf.matmul (x_input, weights) + bias 

softmax_cross_entropy = tf.nn.softmax_cross_entropy_with logits (labels=y_input, 
logits=logits) 

loss_operation = tf.reduce mean(softmax_cross_entropy) 

optimiser = tf.train.GradientDescentOptimizer (0.5) .minimize (loss_operation) 
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如 下 所 示 训 练 这 个 模型 : 


mist = input_data.read data_ sets('MNIST data', one_ hot=True) 
for batch no in range(total batches): 
mnist batch = mnist.train.next_batch(batch size) 
loss_value = session.run([optimiser, loss_operation], feed dict={ 
x_input: mist batch[0], 
y_input: mnist_ batch[1] 


3 


}) 


print (loss_value) 





定义 预测 签名 并 导出 该 模型 。 将 该 模型 保存 到 持久 性 存储 中 ,以 便 可 以 在 稍 后 的 时 间 点 进行 
推断 。 这 通过 反 序列 化 导出 数据 并 将 其 存储 为 不 同系 统 可 以 理解 的 格式 。 具 有 不 同 变 量 和 占 位 
符 的 多 个 图 可 用 于 导出 。 它 还 支持 signature_defs 和 assets。signature_defs 具有 指定 的 
输入 和 输出 ， 因 为 输入 和 输出 将 从 外 部 客户 端 访 问 。assets 是 用 于 推断 的 非 图 的 组 件 , 例如 词汇 
表 等 。 


分 类 签名 使 用 对 TensorFlow 的 分 类 API 的 访问 。 一 个 输入 是 强制 性 的 ， 并 且 有 两 个 可 选 输 
出 (预测 类 别 和 预测 概率 )， 其 中 至 少 一 个 是 强制 性 的 。 预 测 签名 为 输入 和 输出 的 数量 提供 了 灵 
活性 。 可 以 定义 多 个 输出 并 从 客户 端 明确 查询 。signature_qef 显示 在 这 里 : 


signature def = ( 
tf.saved model.signature def utils.builgd signature_ def( 
inputs={'x': tf.saved model.utils.build tensor_info(x_ input)}, 
outputs={'y': tf.saved model.utils.builgd tensor_ infol(ly_input)}, 
method name="tensorflow/serving/predict")) 


最 后 ， 将 metagraph 和 变量 添加 到 具有 预测 签名 的 构建 器 中 : 


model_path = os.path.join(work_ dir, str(model_ version)) 
saved_ model_builder = tf.saved model.builder.SavedModelBuilder (model_ patnh) 
saved model builder.add meta graph angd variables!( 
session, [tf.saved model.tag_constants.SERVING], 
signature_ def _ map={ 
'prediction': signature_ def 
























































jy 
lJegacy_init_op=tf.group(tf.tables initializer(), name='legacy_init_op')) 
saved_ model_builder.save() 


构建 器 已 保存 并 准备 好 被 服务 器 使 用 。 所 示 的 示例 适用 于 任何 模型 ， 可 用 于 导出 。 在 下 一 节 
中 ， 我 们 将 提供 并 查询 导出 的 模型 。 


























3.2.2 ”提供 训练 好 的 模型 


上 一 节 导 出 的 模型 可 以 通过 TensorFlow Serving 提供 ， 使 用 以 下 命令 : 




















tensorflow model_server --port=9000 --model name=mnist -- 
model_base path=/tmp/mnist_ model/ 
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model_base_path 指向 导出 模型 的 目录 。 服 务 右 现在 可 以 通过 客户 端 进行 测试 。 请 注意 ， 
这 不 是 一 个 HTTP 服务 器 。 因此, 需要 用 此 处 所 示 的 客户 端 , 而 不 是 HTTP 客户 端 。 导 入 所 需 的 库 : 


from grpc.beta import implementations 

import numpy 

import tensorflow as tf 

from tensorflow.examples.tutorials.mnist import input_data 
from tensorflow_ serving.apis import predict_pb2 

from tensorflow_ serving.apis import prediction service pb2 


为 并 发 、 测 试 次 数 和 工作 目录 添加 常量 的 声明 。 定义 一 个 类 用 于 计算 返回 的 结果 。 定 义 一 个 
远程 过 程 调 用 (remote procedure call，RPC ) 的 回调 ， 其 中 使 用 一 个 计数 器 计算 预测 值 ， 如 下 所 示 : El 


concurrency = 1 
num_ tests = 100 
host. 4 

port = 8000 

Work -dir = "tm 




















po 





def _create rpc_callback(): 
def _callback (result): 
response = numpy.array( 
result.result().outputs['y'] .float_val) 
prediction = numpy.argmax (response) 
print (prediction) 
return _callback 


根据 你 的 要 求 修改 主机 和 端口 。callback 方法 定义 了 响应 从 服务 器 返回 时 所 需 的 步骤。 在 
这 个 例子 中 ， 计 算 了 概率 的 最 大 值 。 通 过 调用 服务 器 运行 推 斯: 


test_data_set = mnist.test 
test_image = mnist.test.images[0] 














ud 








predict_ request = predict_ pb2.PredictRequest() 


predict_ request.model_ spec.name = 'mnist' 
predict_ request.model_ spec.signature name = 'prediction' 
predict_ channel = implementations.insecure channel (host, int (port)) 


predict_stub = 
prediction service pb2.beta create PredictionService_ stubl(predict_ channel) 








predict_ request.inputs['x'] .CopyFrom( 
tf.contrib.util.make_ tensor_ proto(test_image, shape=[1, test_ image.sizel])) 

result = predict_stub.Predict.future(predict request, 3.0) 

result.add_ done_callback( 

_Ccreate_rpc_callback()) 


重复 调用 推断 来 评估 准确 率 、 延 迟 和 生 吐 量 。 推 断 的 错误 率 应 该 在 90% 左 右 ， 并 发 性 应 该 很 
高 。 为 从 模型 中 获取 结果 和 特征 ， 导 出 和 客户 端 方法 可 以 一 起 使 用 。 在 下 一 节 中 , 我 们 将 构建 检 
索 流 水 线 。 
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3.3 ”基于 内 容 的 图 像 检 索 


基于 内 容 的 图 像 检 索 ( content-based image retrieval，CBIR ) 技术 将 查询 图 像 作 为 输入 ， 并 对 
来 自 目 标 图 像 数 据 库 的 图 像 进行 排序 来 产生 输出 。CBIR 是 一 个 具有 特定 目标 的 图 像 搜索 引擎 。 
为 了 检索 任务 , 一 个 目标 图 像 的 数据 库 是 必需 的 。 返回 距 查询 图 像 的 距离 最 小 的 目标 图 像 。 我 们 
可 以 直接 使 用 图 像 进 行 相似 性 处 理 ， 但 问题 如 下 : 


口 图 像 的 尺寸 很 大 ; 
口 像素 有 很 多 元 余 ; 
口 像素 不 包含 语义 信息 。 


因此 , 我 们 训练 一 个 目标 分 类 模型 ， 并 使 用 模型 中 的 特征 进行 检索 。 然 后 通过 相同 的 模型 伟 
递 查询 图 像 和 目标 数据 库 来 获取 特征 。 这 些 模 型 也 可 以 称 为 编码 器 ,因为 它们 为 特定 任务 进行 图 
像 信息 编码 。 编 码 器 应 该 能 够 捕捉 全 局 和 局 部 特征 。 我 们 可 以 使 用 第 2 章 中 人 研究 的 模型 进行 分 类 
任务 的 训练 。 由 于 蛮 力 搜索 或 线性 扫描 速度 较 慢 ,搜索 图 像 可 能 需要 很 长 时 间 。 因 此 , 需要 一 些 
快速 检索 的 方法 。 以 下 是 一 些 快速 匹配 的 方法 。 


口 局 部 敏感 散 列 (locality sensitive hashing，LSH ): LSH 将 特征 投影 到 它们 的 子 空 间 ， 并 且 
可 以 为 候选 者 提供 一 个 列表 ， 并 在 稍 后 进行 精细 特征 排序 。 和 本 章 前 面 介 绍 的 PCA 和 
t-SNE 相似 ， 这 也 是 一 种 降 维 技术 。 它 在 较 低 维度 具有 特征 容器 。 

口 多 索引 散 列 ( multi-index hashing ): 这 种 方法 对 特征 进行 散 列 ， 就 像 锣 洞 匹 配 一 样 ， 它 使 
用 汉 明 距离 来 加 快 计算 速度 。 汉 明 距 离 是 用 二 进 制 表示 的 数 的 位 置 差异 数 。 


这 些 方法 速度 更 快 ， 只 需要 较 少 的 内 存 , 并 具有 准确 性 的 权衡 。 这 些 方法 也 不 能 捕获 语义 差 
异 。 为 了 根据 查询 获得 更 好 的 结果 , 可 以 对 匹配 结果 进行 重 排序 。 重 排序 可 以 通过 将 返回 的 目标 
图 像 重 新 排序 来 改善 结果 。 重 排序 可 能 使 用 的 技术 如 下 。 


口 几何 验证 ( geometric verification ): 该 方法 仅 依据 返回 的 相似 几何 部 分 将 几何 图 形 和 目标 
图 像 匹配 。 
口 查询 扩展 ( query expansion ): 该 方法 扩大 了 目标 图 像 的 列表 并 且 进 行 了 彻底 搜索 。 

口 相关 反馈 (relevance feedback ): 该 方法 从 使 用 中 获得 反馈 并 返回 结果 。 基 于 用 户 输入 ， 













































































































































































将 完成 重 排序 。 
这 些 技术 已 经 很 好 地 用 于 文本 , 也 可 以 用 于 图 像 。 在 本 章 中 , 我 们 将 重点 介绍 提取 特征 并 将 
其 用 于 CBIR。 


3.3.1 构建 检索 流水 线 
从 查询 图 像 的 目标 图 像 中 获得 最 佳 匹 配 的 步骤 序列 称 为 检索 流水 线 ( retrieval pipeline )。 检 
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索 流 水 线 有 多 个 步骤 或 组 件 。 图 像 数 据 库 的 特征 必须 离线 提取 并 存储 在 一 个 数据 库 中 。 每 个 查询 
图 像 都 必须 提取 特征 , 并 且 在 所 有 目标 图 像 上 计算 相似 度 。 然后 可 以 对 图 像 进行 排序 以 获得 最 终 
输出 。 检 索 流水 线 如 图 3-8 所 示 。 


图 像 数 据 库 
图 3-8 


特征 提取 步骤 必须 快速 ， 可 以 使 用 TensorFlow Serving 做 到 这 一 点 。 我 们 可 以 根据 应 用 选择 
使 用 哪些 特征 。 例 如 ， 当 需要 基于 纹理 的 匹配 时 ， 可 以 使 用 初始 层 ; 当 需 要 在 物体 级 别 匹配 时 ， 
可 以 使 用 后 面 的 层 。 下 一 节 将 介绍 如 何 从 预 训练 的 inception 模型 中 提取 特征 。 


1. 提取 图 像 的 瓶颈 特征 


瓶 贷 特 征 是 在 预 分 类 层 中 计算 的 值 。 在 本 节 中 ， 我 们 将 介绍 如 何 使 用 TensorFlow 从 预 训练 
的 模型 中 提取 瓶颈 特征 。 使 用 以 下 代码 ， 从 导入 所 需 的 库 开 始 : 

import os 

import urllib.request 


from tensorflow.python.platform import gfile 
import tarfile 


然后 ， 我 们 需要 下 载 带 有 图 定义 及 其 权重 的 预 训练 的 模型 。TensorFlow 已 经 使 用 inception 
架构 在 ImageNet 数据 集 上 训练 了 一 个 模型 并 提供 了 该 模型 。 我 们 将 下 载 此 模型 并 使 用 以 下 代码 
将 其 解压 缩 到 本 地 文件 夹 中 : 

model_url = 

'http://download.tensorflow.org/models/image/imagenet/inception-2015-12-05.tgz' 


file name = model url.split('/')[-1] 
file path = os.path.join(work_ dir, file name) 

























特征 匹配 检索 的 图 像 













































































if not os.path.exists(file_path) : 
file path, _ = urllib.request.urlretrieve(model url, file path) 
tarfile.open(file path, 'r:gz') .extractall (work_dir) 


这 创建 了 一 个 文件 来， 只 有 当 它 不 存在 时 才 下 载 模型 。 如 果 代 码 重复 执行 ， 则 模型 不 会 每 次 
都 下 载 。 该 图 以 协议 缓冲 区 ( Protocol Buffer，protobuf ) 格式 存储 在 文件 中 。 它 必须 作为 字符 串 
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读 取 并 传递 给 tf .GraphDef () 对 象 ， 以 将 它 引入 内 存 中 


model_path = os.path.join(work_dir, 'classify_image_graph def.pb') 
with gfile.FastGFile(model path, 'rb') as f: 

graph defnition = tf.GraphDef () 

graph_ defnition.ParseFromString(f.read()) 


在 inception 模型 中 ， 笨 绒 Ga pool_3/_reshape: 0， 层 为 2048 个 维度 。 输 入 占 位 符 名 
为 DecodeJpeg/contents: 调整 大 小 张 量 名 为 ResizeBilinear: 0。 我 们 可 以 使 用 
tf.import_graph_ def 1 步 操作 所 需 的 返回 张 量 : 


bottleneck, image, resized input = ( 
tf.import_graph_ def( 
graph_defnition, 
Dame=' '， 
return elements=['pool 3/_reshape:0'， 
'DecodeJpeg/contents:0', 
'ResizeBilinear:0']) 





) 


获得 一 个 查询 和 目标 图 像 并 将 它 加 载 到 内 存 中 .gfile 函数 提供 了 一 种 能 够 更 快 地 将 图 像 加 
载 到 内 存 中 的 方法 。 


query_image _ path = os.path.join(work_ dir, 'cat.1000.jpg') 
query_image = gfile.FastGFile(query_image path, 'rb').read() 
target_image path = os.path.join(work_ dir, 'cat.1001.jpg') 
target_image = gfile.FastGFile(target_image path, 'rb').read() 


让 我 们 定义 一 个 函数 ， 它 使 用 session 和 image 从 图 像 中 提取 瓶颈 特征 : 


def get_bottleneck datal(session, image data): 
bottleneck data = session.run(bottleneck, {image: image data}) 
bottleneck data = np.squeeze(bottleneck_ data) 
return bottleneck_ data 


为 从 预 训练 的 模型 中 获取 瓶颈 值 ， 启 动 会 话 并 传递 图 像 以 运行 前 向 扒 


query_feature = get_bottleneck datal(session, query_image) 
print (query_feature) 

target_feature = get_ bottleneck data(session, target_image) 
print (target_feature) 


运行 以 上 代码 应 该 打印 如 下 内 容 : 


[ 0.55705792 0.36785451 1.06618118 ..., 0.6011821 0.36407694 
0.0996572 ] 

[ 0.30421323 0.0926369 0.26213276 ..., 0.72273785 0.30847171 
0.08719242] 


为 获得 更 多 目标 图 像 ， 这 个 计算 特征 的 过 程 可 以 按 比例 缩放 。 使 用 这 些 值 , 可 以 计算 查询 图 
像 和 目标 数据 库 之 间 的 相似 度 ， 如 下 节 所 述 











斯 : 





HH 
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2. 计算 查询 图 像 和 目标 数据 库 的 相似 度 


NumpPy 的 1inalg.norm 对 计算 欧 几 里 得 距离 很 有 用 。 通 过 计算 图 像 之 间 的 欧 几 里 得 距离 ， 
可 以 得 出 查询 图 像 和 目标 数据 库 之 间 的 相似 度 ， 如 下 所 示 : 























dist = np.linalg.norm(np.asarray (query_feature) - np.asarray (target_feature)) 
print (dist) 


运行 此 命令 应 该 打印 以 下 内 容 : 


16.9965 








这 是 可 用 于 相似 度 计算 的 指标 。 查询 图 像 与 目标 图 像 之 间 的 欧 几 里 得 距离 越 小 , 两 幅 图 像 越 
相似 。 因此, 欧 几 里 得 距离 是 相似 度 的 度量 。 使 用 这 些 特征 来 计算 欧 几 里 得 距离 基于 这 样 的 假设 : 
特征 是 在 训练 模型 期 间 学 习 到 的 。 数 百 万 幅 图 像 这 样 大 规模 的 计算 效率 不 高 。 生 产 系统 预期 以 毫 
秒 为 单位 返回 结果 。 下 一 节 将 探讨 如 何 提 高 检索 效率 。 
































3.3.2 ”有 效 的 检索 


仿 索 可 能 会 很 慢 ， 因 为 它 是 一 种 变 力 方法 。 使 用 近似 最 近邻 方法 可 以 使 匹配 更 快 。 维度 灾难 
也 会 有 影响 ， 如 图 3-9 所 示 。 
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随 着 维度 不 断 增加 , 复杂 度 从 二 维 增加 到 三 维 , 距离 的 计算 也 变 得 更 慢 。 为 了 加 快 距离 搜索 ， 
将 在 下 一 节 介 绍 一 个 近似 方法 。 

1. 使 用 近似 最 近邻 进行 更 快 匹配 

ANNOY (approximate nearest neighbour oh yeah ) 是 一 个 能 够 快速 进行 最 近邻 搜索 的 方法 。 


ANNOY 通过 随机 投影 来 构建 树 。 树 结构 可 以 让 最 接近 的 匹配 项 更 容易 找到 。 你 可 以 创建 一 个 
ANNOYIndex 来 更 快 地 检索 ， 如 下 所 示 : 
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def create annoy (target_features): 
t = AnnoyIndex (layer_dimension) 
for idx, target_feature in enumerate(target_ features): 
t.adgd_ item(idx, target_feature) 
t.build(10) 


t.save(os.path.join(work_dir, 'annoy.ann')) 
create_annoy (target_features) 
特征 的 维度 是 创建 索引 所 必需 的 。 然 后 将 这 些 项 添加 到 索引 中 ,并 构建 树 。 通 过 权衡 时 间 和 


空间 的 复杂 性 ， 树 的 数量 越 大 ， 结 果 越 精确 。 可 以 创建 索引 并 加 载 到 内 存 中 。ANNOY 可 以 被 查 
询 ， 如 下 所 示 : 


annoy_index = AnnoyIndex(10) 

annoy_index.load(os.path.join(work_dir, 'annoy.ann')) 

matches = annoy_index.get_nns_by_vector(query_feature, 20) 

匹配 列表 可 用 于 检索 图 像 细 节 。 这 些 项 目的 索引 将 被 返回 。 
请 访问 https://github.com/spotify/annoy， 了 和 解 ANNOY 的 完整 实现 方案 及 与 其 他 
近似 最 近邻 算法 在 准确 率 和 速度 方面 的 基准 比较 。 

e@ ANNOY 的 优势 

使 用 ANNOY 有 很 多 原因 。 其 主要 优点 如 下 。 

口 有 一 个 内 存 映 射 的 数据 结构 ， 因 此 RAM 占用 较 低 。 由 于 这 一 点 ,可 以 在 多 个 进程 之 间 共 

享 同一 个 文件 。 

口 可 以 使 用 曼哈顿 距离 、 余 弦 距 离 或 欧 几 里 得 距离 等 多 种 距离 来 计算 查询 图 像 与 目标 数据 

库 之 间 的 相似 度 。 

2. 原始 图 像 的 自 编码 器 


自 编码 器 是 用 于 生成 高 效 编码 的 无 监督 算法 。 输 入 层 和 目标 输出 通常 是 相同 的 。 在 减少 和 增 
加 之 间 的 层 如 图 3-10 所 示 。 
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输入 层 























所 有 层 是 全 连接 的 但 没 画 出 














图 3-10 














瓶颈 层 是 一 个 减 小 了 维度 的 中 间 层 。 瓶 颈 层 的 左 侧 称 为 编码 器 ， 右 侧 称 为 解码 器 。 编 码 吕 通常 
会 减少 数据 的 维度 ， 而 解码 器 会 增加 维度 。 编 码 器 和 解码 器 的 组 合 称 为 自 编码 器 。 整 个 网 络 用 重建 
错误 来 训练 。 理 论 上 ， 可 以 存储 瓶颈 层 ， 并 且 解 码 器 网 络 可 以 重建 原始 数据 。 这 样 减少 了 维度 ， 
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def 


def 





























并 且 可 以 很 容易 地 进行 编程 。 使 用 如 下 代码 定义 卷 积 、 反 卷 积 和 全 连接 层 : 


fully_connected_ layer (input_layer, units): 
return tf.layers.densel 

input_layer, 

units=units, 

activation=tf.nn.relu 


) 


convolution_ layer (input_layer, filter_ size): 

return tf.layers.conv2d( 
input_layer, 
filters=filter_ size, 
kernel_initializer=tf.contrib.layers.xavier_initializer_conv2d(), 
kernel_size=3, 
strides=2 

) 


deconvolution layer (input_layer, filter_ size, activation=tf.nn.relu): 
return tf.layers.conv2d transposel 

input_layer, 

filters=filter_ size， 

kernel_ initializer=tf.contrib.layers.xavier_ initializer_conv2d(), 

kernel_size=3, 

activation=activation, 

strides=2 
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用 五 层 养 积 定义 收敛 的 编码 锅 ， 如 下 所 示 : 


input_layer = tf.placeholder (tf.float32, [None, 128, 128, 3]) 
convolution layer_1 = convolution layer (input_layer, 1024) 
convolution layer_2 = convolution layer(convolution layer_1, 512) 
convolution layer_3 = convolution layer (convolution layer 2, 256) 
convolution layer_4 = convolution layer(convolution layer_ 3, 128) 
convolution_ layer_5 = convolution layer (convolution layer_4, 32) 


通过 展 平 第 五 卷 积 层 来 计算 瓶颈 层 。 为 适合 卷 积 层 ， 瓶 颈 层 再 次 被 重建 回来 ， 如 下 所 示 : 


Convolution_ layer 5 flattenedq = tft.1Llayers.flatten(convolution_ layer_5) 
bottleneck_layer = fully_connected layer(convolution layer 5 flattenedq，16) 
c5_shape = convolution layer_5.get_shape().as_list() 

c5f_flat_shape = convolution layer 5 flattened.get_shape().as_list()[1] 
fully_connected = fully_connected_ layer (bottleneck _ layer, cbf_flat_shape) 
fully_connected = tf.reshape (fully_connected, 
[-1，c5_shape[1]，c5_shape[2]，c5_shape[3]]) 


计算 可 重建 图 像 的 发 散 或 解码 器 部 分 ， 如 下 所 示 : 


deconvolution layer_1 
deconvolution layer_2 
deconvolution layer_3 
deconvolution layer_4 
deconvolution layer_5 











deconvolution layer (fully_connected, 128) 
deconvolution _ layer (deconvolution layer_1, 256) 
deconvolution layer (deconvolution layer_ 2, 512) 
deconvolution _ layer (deconvolution_ layer_ 3, 1024) 
deconvolution_ layer (deconvolution layer_4, 3, 
activation=tf.nn.tanh) 


这 个 网 络 经 过 训练 并 迅速 收 僵 。 当 图 像 特征 传递 过 来 时 , 瓶颈 层 可 以 被 存储 。 这 有 助 于 减 小 
数据 库 的 大 小 ,然后 可 用 于 检索 。 我 们 只 需要 编码 器 部 分 来 索引 这 些 特 征 。 自 编码 器 是 一 种 有 损 
压缩 算法 。 它 与 其 他 压缩 算法 不 同 ， 因 为 它 从 数据 中 学 习 压 缩 模式 。 因 此 ,一 个 自 编码 器 模型 是 
特定 于 数据 的 。 为 获得 更 好 的 可 视 化 , 自 编码 器 可 以 与 +SNE 相 结合 。 自 编码 器 学 到 的 瓶颈 层 可 
能 对 其 他 任务 没有 用 处 。 瓶 颈 层 的 大 小 可 能 比 以 前 的 层 更 大 。 在 这 种 情况 下 ,发 散 和 收敛 的 连接 
是 稀 下 的 自 编码 器 。 在 下 一 节 中 ， 我 们 将 学 习 自 编码 需 的 另 一 个 应 用 。 


3.3.3 ”使 用 自 编码 器 去 噪 


自 编码 器 也 可 用 于 图 像 去 品 。 去 噪 是 从 图 像 中 去 除 噪声 的 过 程 。 去 噪 编码 器 可 以 用 无 监督 的 
方式 进行 训练 。 在 正常 图 像 中 引入 噪声 ,并 且 用 自 编 码 器 针对 原始 图 像 进行 训练 。 之 后 ,完整 的 
自 编码 器 可 用 于 产生 无 噪声 图 像 。 本 节 将 提供 MNIST 图 像 去 噪 的 逐步 指导 。 导 和 人 所 需 的 库 并 定 
义 占 位 符 ， 如 下 所 示 : 

x_input = tf.placeholder (tf.float32, shape=[None, input_sizel]) 

y_input = tf.placeholder (tf.float32, shape=[None, input_sizel]) 

因为 在 一 个 自 编码 天 中 ，x_input 和 y_input 的 形状 相同 。 然 后 ， 定 义 一 个 密集 层 ， 默 认 
激活 为 tanh 激活 函数 。adg_variable_summary 方法 是 从 第 2 章 示 例 中 导入 的 。 下 面 显 示 了 
密集 层 的 定义 : 
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def dense_ layer (input_layer, units, activation=tf.nn.tanh): 
layer tf.layers.densel 
inputs=input_layer, 
units=units, 
activation=activation 


) 
adqd_variable_ summary (layer, 
return layer 


接 下 来 , 可 以 定义 自 编码 絮 层 。 这 


'dense') 


这 个 自 编 码 右 只 有 全 连接 层 。 编码 如 部 分 有 减少 维度 的 三 个 





























层 。 解 码 器 部 分 有 增加 维度 的 三 个 层 。 编 码 需 和 解码 器 都 是 对 称 的 ， 如 下 所 示 : 
layer_1 = dense_ layer (x_input, 500) = 
layer_2 = dense_layer (layer_1, 250) 
layer_3 = dense_ layer (layer_2, 50) 
layer_4 = dense_layer (layer_3, 250) 
layer_5 = dense_layer (layer_4, 500) 
layer_6 = dense_ layer (layer_5, 784) 
隐藏 层 的 维度 是 任意 选择 的 。 接 下 来 ， 定义 loss 和 optimizer。 这 里 使 用 sigmoiga 而 不 
是 softmax 作为 分 类 ， 如 下 所 示 : 


with tf.name_ scope('loss'): 
softmax_cross_entropy tf.nn.sigmoid_ cross_entropy_with logits ( 
labels=y_input, logits=layer_6) 
loss_operation tf.reduce mean(softmax_cross_entropy,name='loss') 
tf.summary.scalar('loss', loss_operation) 





with tf.name_ scope('optimiser'): 
optimiser tf.train.AdamOptimizer() 


.minimize (loss_operation) 


TensorBoard 提供 了 另 一 种 名 为 image 的 汇总 ， 它 对 于 图 像 的 可 视 化 非常 有 用 。 我 们 将 接受 
输入 layer_6 并 重新 整形 它 ， 以 将 其 添加 到 汇总 中 ， 如 下 所 示 : 

x_input_reshaped = tf.reshape(x_input, [-1, 28, 28, 1]) 

tf.summary.image ("noisy_images", x_input_reshaped) 

y_input_reshaped = tf.reshape(ly_input, [-1, 28, 28, 1]) 

tf.summary.image ("original_ images", y_input_reshaped) 

layer_6_reshaped = tf.reshape(layer_6, [-1, 28, 28, 1]) 





tf.summary.image ("reconstructed images", 








图 像 的 数量 默认 限制 为 三 个 , 这 可 以 更 改 。 这 


layer_6_reshaped) 


这 是 为 了 限制 它 将 所 有 图 像 写 入 汇总 文件 夹 。 接 


下 来 ， 将 所 有 汇总 合并 ， 并 将 该 图 添加 到 汇总 写 和 器， 如 下 所 示 : 


merged_summary_operation 
train_summary_writer 


正常 的 随机 噪声 
是 自己 的 原始 图 像 。 


添加 噪声 


可 以 添加 到 图 像 并 作为 输入 张 量 传人 。 噪 声 
和 训练 过 程 如 下 所 示 : 


tf.summary.merge_all () 
tf.summary .FileWriter(' 


/tmp/train', 


添加 后 , 额外 的 值 被 剪 切 。 目 标 


session.graph) 
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for batch no in range(total batches): 
mnist _ batch = mnist_ data.train.next_ batch(batch size) 


train_ images, _ = mnist _ batch[0], mnist_ batch[1] 
train_ images_noise = train images + 0.2 * 
np.random.normal (size=train_images.shape) 
train_images_noise = np.clip(train images_noise, 0., 1.) 
_, merged_ summary = session.run([optimiser, merged_ summary_operation], 


feed_ dict={ 
x_input: train images_noise, 
y_input: train images, 


} 


train_ summary_writer.add_summary (merged_summary, batch no) 


当 这 个 训练 开始 时 ， 结 果 可 以 在 TensorBoard 中 看 到 。 损 失 如 图 3-11 所 示 。 





loss/loss_1 


0.420 














图 3-11 








损失 稳步 下 降 , 在 迭代 过 程 中 将 继续 缓慢 下 降 。 这 显示 了 自 编 码 器 是 如 何 快速 收银 的 。 接 下 
来 ， 从 原始 图 像 显 示 三 位 数字 ， 如 图 3-12 所 示 。 


图 3-12 


下 加 


图 3-13 



































图 3-13 是 添加 了 噪声 的 相同 图 像 。 
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你 会 注意 到 有 很 大 的 噪声 ， 而 且 它 作为 了 一 个 输入 。 接 下 来 ,使 用 去 噪 自 编 码 器 重建 相同 数 


字 的 图 像 ， 如 图 3-14 所 示 。 


图 3-14 
你 会 注意 到 去 噪 自 编 码 器 在 消除 噪声 方面 做 得 非常 出 色 。 可 以 在 测试 图 像 上 运行 此 功能 , 并 
且 可 以 维持 质量 。 更 复杂 的 数据 集 可 以 使 用 卷 积 神经 网 络 获得 更 好 的 结果 。 因 为 是 以 无 监督 方式 
进行 训练 的 ， 这 个 例子 展示 了 计算 机 视觉 深度 学 习 的 能 





















































3.4 小 结 


在 本 章 中 ,我 们 学 习 了 如 何 从 图 像 中 提取 特征 并 将 其 用 于 CBIR ,如 何 使 用 TensorFlow Serving 
来 获取 图 像 特征 的 推断 , 如何 利用 近似 最 近邻 或 快速 匹配 方法 而 不 是 线性 扫描 方法 来 检索 ,以 及 
如 何 使 用 散 列 改善 结果 。 本 章 引入 了 自 编码 器 的 思路 , 并 且 介绍 了 如 何 训练 较 小 的 特征 向 量 以 进 
行 搜索 ， 还 给 出 了 使 用 自 编码 器 进行 图 像 去 噪 的 示例 。 我 们 看 到 了 使 用 基于 位 的 比较 的 可 能 1 
这 种 比较 方法 可 以 将 其 扩展 至 数 十 亿 的 图 像 。 


下 一 章 将 介绍 如 何 训练 目标 检测 问题 的 模型 。 我 们 将 利用 开源 模型 来 获得 良好 的 准确 性 并 理 
解 背后 的 所 有 算法 ， 并 使 用 所 有 的 思路 来 训练 行人 检测 模型 。 
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目标 检测 











目标 检测 是 在 一 幅 图 像 中 查找 目标 位 置 的 行为 。 本 章 将 介绍 目标 检测 技术 并 实现 行人 检测 。 
本 章 涉及 以 下 主题 .: 

口 基础 知识 以 及 定位 与 检测 的 区 别 ; 

口 各 种 数据 集 及 其 描述 ; 

口 用 于 目标 定位 和 检测 的 算法 ; 

口 用 于 目标 检测 的 TensorFlow API; 

口 训练 新 的 目标 检测 模型 ; 

口 用 YOLO 算法 在 移动 车 辆 上 进行 行人 检测 。 

















4.1 检测 图 像 中 的 目标 


近年 来 , 目标 检测 在 应 用 和 研究 方面 都 出 现 了 爆炸 性 增长 。 目标 检测 是 计算 机 视觉 中 的 重要 
问题 。 与 图 像 分 类 任务 类 似 , 深度 网 络 在 检测 中 表现 出 了 更 好 的 性 能 。 目 前 ,这些 技 术 的 准确 性 
非常 好 ， 故 在 许多 应 用 中 都 有 使 用 。 

图 像 分 类 将 图 像 作为 整体 打 标签 。 除 了 标记 目标 之 外 ,还 需要 查找 目标 的 位 置 , 这 称 为 目标 


定位 ( object localization )。 通 常 ， 目 标的 位 置 由 直角 坐标 值 定义 。 用 直角 坐标 值 在 图 像 中 找到 多 
个 目标 称 为 检测 。 图 4-1 是 一 个 目标 检测 的 例子 。 
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该 图 像 显 示 了 四 个 带 边 界 框 的 目标 。 我 们 将 学 习 可 以 执行 查找 边界 框 任务 的 算法 。 在 机 器 人 
视觉 方面 , 它 的 应 用 非常 多 , 例如 自动 驾驶 汽车 和 工业 目标 ,定位 和 检测 任务 可 以 总 结 为 以 下 两 点 : 
口 定位 是 检测 图 像 中 带 有 一 个 给 定 标 签 的 单个 目标 ; 

口 检测 是 找到 图 像 中 带 有 给 定 标签 的 所 有 目标 。 

两 者 的 不 同 之 处 是 目标 的 数量 。 在 检测 中 , 目标 的 数量 是 可 变 的 。 在 设计 用 于 定位 或 检测 的 
深度 学 习 模型 的 架构 时 ， 这 种 小 区 别 会 导致 很 大 的 差异 。 接 下 来 ,我 们 将 看 到 可 用 于 这 些 任务 的 
各 种 数据 集 。 



























































4.2 ”探索 数据 集 


可 用 于 目标 定位 和 检测 的 数据 集 有 很 多 。 在 本 节 中 , 我 们 将 探索 研究 团体 用 来 评估 算法 的 数 
据 集 。 这 些 数 据 集中 包含 数量 不 等 的 目标 ， 标 定 的 数量 范围 从 20 到 200 个 不 等 。 这 使 目标 检测 
变 得 困难 。 某 些 数据 集 在 一 幅 图 像 中 的 目标 太 多 ， 而 某 些 数据 集中 每 幅 图 像 却 只 有 一 个 目标 。 接 
下 来 ,我 们 将 详细 查看 一 些 数据 集 。 


























4.2.1 ImageNet 数据 集 

ImageNet 拥有 评估 用 于 分 类 、 定 位 和 检测 任务 的 数据 。 第 2 章 详细 讨论 了 分 类 数据 集 。 与 分 
类 数据 类 似 ， 定 位 任务 有 1000 个 分 类 。 准 确 率 是 根据 最 高 五 项 检测 结果 计算 出 来 的 。 所 有 图 像 
中 至 少 有 一 个 边界 框 。 对 200 个 目标 的 检测 问题 有 470 000 幅 图 像 ， 平均 每 幅 图 像 有 1.1 个 对 象 。 








4.2.2” PASCAL VOC 挑战 


PASCAL VOC 挑 战 在 2005 年 至 2012 年 间 展 开 。 这 一 挑战 被 认为 是 目标 检测 技术 的 基准 。 该 
数据 集中 有 20 个 分 类 ， 包含 11 530 幅 用 于 训练 和 验证 的 图 像 ， 其 中 感 兴趣 的 区 域 有 
27 450 个 标定 。 以 下 是 数据 集中 的 20 个 分 类 。 

口 人 : 人 。 

口 动物 : 鸟 、 猫 、 牛 、 狗 、 马 、 羊 。 

口 车 辆 : 飞机、 自行 车 、 船 、 巴 士 、 汽 车 、 摩 托 车 、 火 车 。 

口 室内 物品 : 瓶子 、 椅 子 、 餐 桌 、 盆 栽植 物 、 沙 发、 电视 /监视 器 。 


该 数据 集 平均 每 幅 图 像 有 2.4 个 目标 。 


























4.2.3 COCO 目标 检测 挑战 


COCO (common objects in context ) 数据 集 包含 20 万 幅 图 像 。80 个 类 别 中 有 超过 50 万 个 目 
标 标定 。 它 是 最 广泛 公开 的 目标 检测 数据 库 。 图 4-2 展示 了 数据 集中 存在 的 目标 列表 。 
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平均 每 幅 图 像 的 目标 数 为 7.2。 这 些 是 目标 检测 挑战 的 著名 数据 集 。 接 下 来 ， 我 们 将 学 习 如 
何 评估 针对 这 些 数 据 集 的 算法 。 





4.2.4 ”使 用 指标 评估 数据 集 

指标 对 于 理解 深度 学 习 任 务 至 关 重 要 。 由 于 人 的 标定 ,目标 检测 和 定位 的 度量 指标 是 独特 的 。 
人 可 能 标定 了 一 个 被 称 为 真实 值 ( ground-truth ) 的 框 。 真 实 值 不 一 定 是 绝对 的 事实 。 而且, 不 同 
人 标定 的 框 可 能 相差 几 个 像素 。 因 此 , 算法 难以 检测 人 绘制 的 确切 边界 框 。 交 并 比 ( intersection 
over union，IoU ) 用 于 评估 定位 任务 。 平 均 精 度 ( mean average precision，mAP ) 用 于 评估 检测 
任务 。 我 们 将 在 以 下 几 节 中 看 到 这 些 指 标的 描述 。 


1. 交 并 比 
交 并 比 是 真实 值 和 预测 面积 重 琶 部 分 的 面积 与 总 面积 的 比值 。 图 4-3 是 该 指标 的 视觉 解释 。 
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实际 计算 时 , 用 两 个 方块 代表 真实 值 和 预测 值 的 边界 框 。 交 并 比 通过 重 闭 面积 与 并 集 面积 的 


比 来 计算 。 下 面 是 计算 真实 值 和 预测 值 边界 框 的 交 并 比 的 脚本 : 


def calculate_ioul(gt_bb, pred_bb): 

















:param gt_bb: ground truth bounding box 
:param pred bb: predicted bounding box 


gu Db stEstack(l 


UE DB or Mn OT 0t BER Sa jn i 0 





gt_bbl ,sy 1 -gE DB. 站 
gt_bbl y+ 0 -Ft bley, wy wo 2 
gt_bbl .ep et yt BL wD Sa 0D 
Ut Db =' tf transnosetogt BB; Tl 2.3) VT) 
preqd_ bb = tf.stack(l[ 
Bred. BL 3 ay Hy OT Bred bo, ol] 0s 
pred_bb[:, :, :, :, 1] - pred_ bbl[:, 中 Oy 
和 Ga bbls sy #7 Ti0)] + Pred._ bbl 2 ds 
pred. bblssy. 3 3y. 3 41] 4 Dred bbls,: 3 Ty 5. 3] FY RV 
pred_bb = tf.transpose(pred bb, [1, 2, 3, 4, 0]) 
area = tf.maximum( 
QO 
tfE mm(dt BL sp. Th 2 DEed .DBL or Sh. 小 4 
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bred. Bb areas = (pred BBLs, By ww B21) ~ Dred Bblay 3, a; 3 0 2 \ 
(pred BDB[ey sy sy B33 3] .= Pred bbls,. 3 ®t 3 11) 
union area = tf.maximum(gt_bb_area + pred_ bb area - intersection area, 


1e-10) 
iou = tf.clip by_value(intersection area / union area, 0.0, 1.0) 
return iou 


真实 值 和 预测 的 边界 框 堆 闭 在 一 起 。 然 后 在 处 理 负 面积 的 情况 下 计算 面积 。 边界 框 坐标 不 正 
确 时 可 能 会 出 现 负 面积 。 一 个 框 的 右 侧 坐 标 可 能 出 现在 左 侧 坐 标 处 。 由 于 没有 保留 边界 框 的 结构 ， 
因此 负面 积 必 然 会 发 生 。 计 算 联 合 和 相交 区 域 ， 然后 进行 最 终 的 交 并 比 计算 ， 即 计算 真实 值 和 预 
测 面积 的 重 县 面积 与 总 面积 的 比 。 交 并 比 的 计算 可 以 与 算法 结合 来 训练 目标 定位 问题 。 


2. mAP 


mAP 用 于 评估 检测 算法 。mAP 指标 是 检测 到 的 边界 框 的 精确 率 和 召回 率 的 乘积 。mAP 的 取 
值 范围 是 0 到 100， 数 字 越 大 越 好 。mAP 的 计算 可 以 通过 先 分 别 计 算 每 个 类 别 的 平均 精确 率 ， 然 
后 再 计算 类 别 上 的 平均 值 来 进行 。 只 有 当 mAP 高 于 0.5 时 ， 检 测 才 被 认为 是 正确 的 。 通 过 为 每 
个 类 别 绘制 精准 率 / 召 回 曲线 ， 可 以 将 测试 图 像 中 的 所 有 检测 结果 进行 组 合 。 曲 线 下 的 最 终 面 积 
可 用 于 算法 的 比较 。mAP 是 衡量 网 络 灵敏 度 的 一 个 很 好 的 衡量 指标 ， 同 时 不 会 产生 很 多 虚 警 。 
我 们 已 经 学 习 了 数据 集 的 评估 算法 ， 接 下 来 学 习 目 标定 位 任务 的 算法 。 
























































4.3 目标 定位 算法 


定位 算法 是 第 2 章 和 第 3 章 中 学 习 的 材料 的 扩展 。 在 图 像 分 类 中 , 一 幅 图 像 经 过 了 CNN ( 卷 
积 神经 网 络 ) 的 若干 层 。CNN 的 最 后 一 层 输出 了 属于 每 个 标签 的 概率 值 。 这 可 以 扩展 到 目标 定 
位 中 。 本 章 将 介绍 这 些 思路 的 运用 。 
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4.3.1 使 用 滑动 窗口 定位 目标 


一 种 出 于 直觉 的 定位 方法 是 使 用 目标 预测 一 幅 图 像 的 儿 个 裁剪 部 分 。 可 以 通过 在 图 像 上 移动 
窗口 并 对 每 个 窗口 进行 预测 来 裁 前 图像。 移动 比 原 图 像 更 小 的 窗口 并 根据 窗口 大 小 裁剪 图 像 的 方 
法 称 为 滑动 窗口 ( sliding window )。 对 图 像 的 每 个 裁剪 窗口 进行 预测 称 为 滑动 窗口 目标 检测 。 


预测 可 以 通过 使 用 紧密 裁剪 的 图 像 在 图 像 分 类 问题 上 训练 的 深度 学 习 模 型 来 完成 。 紧密 裁剪 
( close cropping ) 意味 着 在 整个 裁 前 图像 中 只 能 找到 一 个 目标 。 滑 动 窗口 的 移动 必须 在 图 像 上 保 
持 均匀 。 图 像 的 每 个 部 分 都 经 过 该 模型 来 查找 类 别 。 但 这 种 方法 有 两 个 问题 。 


口 它 只 能 找到 与 窗口 大 小 相同 的 目标 。 如 果 目 标 大 于 窗口 大 小 ， 则 滑动 窗口 会 丢失 目标 。 
为 了 克服 这 一 点 ， 我 们 将 使 用 尺度 空间 (scale space ) 的 概念 。 

口 另 一 个 问题 是 ， 将 窗口 移 到 像素 上 可 能 会 导致 错过 一 些 目标 。 将 窗口 移 到 每 个 像素 上 会 
导致 大 量 额外 的 计算 ， 因 此 会 降低 系统 速度 。 为 了 避免 这 种 情况 ， 我 们 将 在 卷 积 层 中 引 
人 一 个 技巧 。 


接 下 来 介绍 一 下 这 两 种 技术 。 
1. 尺度 空间 概念 


尺度 空间 概念 是 指使 用 各 种 尺寸 的 图 像 。 一 幅 图 像 被 缩小 为 较 小 的 尺寸 , 因此 可 以 使 用 相同 
大 小 的 窗口 检测 较 大 的 目标 。 可 以 把 图 像 调整 为 大 小 递减 的 一 些 尺 寸 。 通过 去 除 蔡 代 像素 或 使 用 
内 插 来 调整 图 像 大 小 可 能 会 留 下 一 些 伪 影 。 因 此 要 迭代 地 平滑 图 像 和 调整 图 像 大 小 。 通 过 平滑 和 
调整 大 小 获得 的 图 像 构 成 了 尺度 空间 。 


在 每 个 单一 尺度 上 滑动 的 窗口 用 于 目标 的 定位 。 运 行 多 个 尺度 相当 于 用 更 大 的 窗口 执行 图 
像 。 在 多 个 尺度 上 运行 的 计算 复杂 度 很 高 。 可 以 通过 快速 移动 来 实现 定位 ,不 过 要 以 准确 率 为 代 
价 。 这 种 复杂 度 使 该 解决 方案 无 法 用 于 生产 环境 。 为 提高 效率 ,滑动 窗口 的 概念 可 以 通过 滑动 窗 
口 的 全 卷 积 实现 。 


2. 将 全 连接 层 作 为 卷 积 层 进行 训练 


滑动 窗口 的 问题 是 计算 复杂 度 。 复 杂 度 来 自 需 要 针对 每 个 窗口 进行 预测 。 已 经 计算 出 了 重叠 
区 域 每 个 窗口 的 深度 学 习 特 征 。 在 裁剪 窗口 中 重 肆 区 域 的 这 种 特征 计算 可 以 减少 。 解 决 方案 是 使 用 
全 卷 积 网 络 , 它 只 需要 计算 一 次 特征 。 为 了 理解 全 卷 积 网 络 , 我 们 首先 看 看 如 何 将 全 连接 的 层 转换 
为 convolution_ layer。 卷 积 核 更 改 为 相同 的 大 小 。 滤 波 需 数量 与 神经 元 数量 相同 。 它 也 可 以 重 
复 用 于 其 他 层 。 更 改 卷 积 核 的 大 小 是 把 全 连接 层 转换 为 convolution_layer 的 更 简单 方法 : 

convolution layer_1 = convolution layer(x_input_reshape, 64) 

pooling_layer_1 = pooling_ layer (convolution layer_1) 


convolution_ layer_ 2 = convolution layer (pooling_ layer_1, 128) 
pooling_layer_ 2 = pooling_ layer (convolution layer_ 2) 



















































































































































































dense_layer_bottleneck = convolution layer(Pooling_layer 2，1024， [5, 5]) 

logits = convolution layer (dense_layer_bottleneck, no_classes, [1, 1]) 

logits = tf.reshape(logits, [-1, 10]) 

密集 层 表 示 为 卷 积 层 。 这 个 想法 在 许多 情况 下 是 强大 和 有 用 的 。 我 们 将 扩展 这 个 想法 , 将 滑 
动 窗 口 表示 为 一 个 全 卷 积 网 络 。 


3. 滑动 窗口 的 卷 积 实现 


这 种 技术 不 使 用 滑动 , 而 是 将 最 终 目 标 改 变 为 一 些 要 求 的 目标 作为 次 度 并 用 知 干 个 边界 框 作 
为 窗口 。Sermanet 等 人 使 用 全 卷 积 实现 来 克服 滑动 窗口 的 这 个 问题 。 图 4-4 是 滑动 窗口 的 这 种 卷 
耻 实 现 的 例子 。 
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* 经 Sermanet 等 人 许可 转载 





图 4-4 


在 该 图 的 上 半 部 分 , 正常 分 类 表示 为 一 个 全 卷 积 层 。 在 图 的 下 半 部 分 , 相同 的 卷 积 核 被 应 用 
到 更 大 的 图 像 ， 最 后 得 到 2 x 2 而 不 是 1 的 结果 。 最 后 一 层 表 示 这 些 边 界 框 的 四 个 输出 。 这 种 容 
积 量 的 预测 可 以 提高 效率 , 但 这 些 方 框 仍然 存在 准确 定位 的 问题 。 滑 动 窗口 不 再 是 必需 的 ,因此 
解决 了 复杂 度 问题 。 宽 高 比 ( aspect ratio ) 总 是 在 变化 ， 并 且 必 须 在 多 个 尺度 上 看 到 。 全 卷 积 
法 产生 的 边界 框 不 是 很 准确 。 额 外 的 计算 仅 针对 额外 的 区 域 完成 。 可 以 想象 , 这些 边界 框 受 限 于 
经 过 训练 的 边界 框 的 数量 。 接 下 来 将 介绍 一 种 能 更 准确 地 检测 边界 框 位 置 的 方法 。 






































4.3.2 ”将 定位 看 作 回归 问 题 
考虑 定位 的 一 个 基本 方法 是 将 问题 建 模 为 回归 问题 。 边界 框 是 四 个 数字 , 因此 可 以 直接 通 ; 
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设置 回归 预测 。 我 们 还 需要 预测 标签 ， 这 是 一 个 分 类 问题 。 


定义 边界 框 有 不 同 的 参数 化 方法 。 边 界 框 通常 有 四 个 数字 。 其 中 一 种 表示 是 边界 高 度 和 宽度 
的 坐标 中 心 。 预 训练 的 模型 可 以 通过 去 掉 全 连接 层 并 替换 为 回归 编码 器 来 使 用 。 回 归 需 要 被 L2 
正则 化 ， 和 否则 有 离 群 点 时 会 表现 不 佳 。L2 的 损失 优 于 工 1。 用 平滑 版 本 的 正则 化 蔡 换 回归 更 好 。 
对 模型 进行 微调 可 以 提供 很 好 的 准确 性 ， 而 对 整个 网 络 进行 训练 只 能 得 到 很 小 的 性 能 提升 。 这 涉 
及 训练 时 间 和 准确 性 之 间 的 折 中 。 接 下 来 介绍 使 用 卷 积 网 络 进行 回归 的 不 同 应 用 。 


1. 将 回归 应 用 于 其 他 问题 


回归 图 像 坐 标 方法 适用 于 其 他 几 种 应 用 ， 例 如 姿态 检测 (pose detection ) 和 基准 点 检测 
(fiducial point detection )。 如 图 4-5 所 示 ， 姿 态 检测 是 在 人 体 中 寻找 关节 位 置 的 行为 。 




































































图 4-5 


在 前 面 的 图 像 中 ,检测 到 多 个 位 置 ， 例 如 头 部 、 颈 部 、 肩 部 、 趴 部 和 手 部 。 这 可 以 扩展 到 所 
有 人 体 部 位 。 我 们 学 到 的 回归 方法 可 以 用 于 这 个 应 用 。 图 4-6 是 一 个 基准 点 检测 的 例子 。 
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基准 点 是 眼睛 、 鼻 子 和 嘴 展 在 脸 部 相对 位 置 的 关键 点 。 寻 找 这 些 关 键 点 对 于 基于 人 脸 的 增强 
现实 应 用 至 关 重 要 。 脸 部 还 有 更 多 的 关键 点 ， 这 将 在 第 6 章 的 人 脸 识别 应 用 场景 下 详细 介绍 。 

2. 结合 回归 与 滑动 窗口 

为 了 知道 该 窗口 中 存在 什么 目标 , 滑动 窗口 方法 或 全 卷 积 方法 中 的 每 个 窗口 都 要 计算 分 类 评 
分 。 不 是 为 了 检测 一 个 目标 而 预测 每 个 窗口 的 分 类 评分 , 而 是 可 以 用 分 类 评分 来 预测 每 个 窗口 本 
身 。 结合 滑动 窗口 、 尺 度 空 间 、 全 卷 积 和 回归 等 所 有 想法 , 会 比 任何 单独 的 方法 提供 更 好 的 结果 。 
图 4-7 是 ImageNet 数 据 集 上 使 用 回归 方法 通过 各 种 网 络 实现 的 前 五 位 定位 错误 率 。 

















ResNet 


Alexnet OverFeat 








日 错误 率 





图 4-7 


图 4-7 显示 : 网 络 越 深 ,结果 越 好 。 本 文 没有 描述 AlexNet 的 定位 方法 。OverFeat 使 用 框 合 
并 的 多 尺度 卷 积 回归 。VGG 用 了 定位 ， 但 规模 和 位 置 较 少 。 这 些 增益 归 因 于 深层 特征 。ResNet 
使 用 了 不 同 的 定位 方法 和 更 深 的 特征 。 

回归 编码 器 和 分 类 编码 器 的 功能 独立 , 因此 有 可 能 对 于 一 个 边界 框 预 测 的 标签 不 正确 。 这 个 
问题 可 以 通过 在 不 同 的 层 上 附加 回归 编码 器 来 解决 。 该 方法 也 可 以 用 于 多 个 目标 , 从 而 解决 目标 
检测 问题 。 给 定 一 幅 图 像 , 找到 所 有 的 实例 。 由 于 输出 数量 是 可 变 的 , 因此 很 难 将 检测 视 为 回归 。 
一 幅 图 像 可 能 有 两 个 目标 ， 另 一 幅 图 像 可 能 有 三 个 或 更 多 目标 。 在 下 一 节 中 , 我们 将 学 习 更 有 效 
地 处 理 检 测 问 题 的 算法 。 
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4.4 检测 目标 
目标 检测 算法 有 几 种 变 体 。 这 里 讨论 一 些 目标 检测 算法 和 API。 
4.4.1 R-CNN (区 域 卷 积 神经 网 络 ) 


首先 是 Girshick 等 人 提出 的 区 域 CNN。 它 提出 了 儿 个 候选 框 并 检查 是 否 有 任何 框 与 真实 值 
相符 。 这 些 区 域 建议 ( region proposal ) 使 用 了 选择 性 搜索 ( selective search )。 选 择 性 搜索 通过 对 
各 种 尺寸 的 窗口 的 颜色 /纹理 进行 分 组 来 提出 区 域 , 搜索 寻找 类 似 斑点 (blob ) 的 结构 。 它 从 一 个 
像素 开始 ， 并 以 更 高 的 比例 产生 一 个 斑点 。 它 产生 了 大 约 2000 个 区 域 建议 。 与 所 有 可 能 的 滑动 
窗口 相 比 ， 该 区 域 建议 较 少 。 
































这 些 建 议 的 大 小 经 过 重新 调整 并 通过 标准 的 CNN 架构 ， 如 Alexnet/VGG/Inception/ResNet。 
CNN 的 最 后 一 层 使 用 SVM 进行 训练 , 识别 具有 无 目标 类 中 的 目标 ,通过 收 紧 图 像 周围 的 边界 框 ， 
边界 得 到 进一步 改进 。 更 近 的 边界 框 预测 可 以 用 一 个 线性 回归 模型 和 目标 区 域 建议 来 训练 得 到 。 
R-CNN 的 架构 如 图 4-8 所 示 。 






































(2) 提取 区 域 建议 G3) 计算 CNN 特 征 (4) 分 类 














图 4-8 
编码 器 可 以 是 标准 深度 学 习 模 型 的 预 训练 模型 。 根据 训练 数据 计算 所 有 区 域 的 特征 。 特征 存 
储 下 来 ， 然 后 训练 SYVM。 接 着 ， 用 归 一 化 的 坐标 来 训练 边界 框 。 在 图 像 坐 标 之 外 可 能 会 有 一 些 
建议 ， 因 此 对 训练 和 推断 要 进行 归 一 化 处 理 。 
这 种 方法 的 缺点 是 : 
口 若干 建议 是 通过 选择 性 搜索 形成 的 ， 因 此 必须 计算 许多 推断 ， 数 量 通常 约 为 2000; 
口 有 三 个 分 类 需 必 须 进 行 训练 ， 这 会 增加 参数 的 数量 ; 
口 没有 端 到 端的 训练 。 






















































































4.4.2 Fast R-CNN 


Girshick 等 人 提出 的 Fast R-CNN 方法 只 运行 一 次 CNN 推断 ， 从 而 减少 计算 量 。CNN 的 输出 
用 于 提出 网 络 并 选择 边界 框 。 它 引入 了 一 种 名 为 感 兴趣 区 域 池 化 (region ofinterestpooling ) 的 技 
术 。 感 兴趣 区 域 池 化 根据 区 域 将 CNN 的 特征 一 起 池 化 。 使 用 CNN 推断 后 , 池 化 获得 的 特征 会 集 
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合 起 来 并 选择 区 域 ， 如 图 4-9 所 示 。 
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* 经 Girshick 等 人 许可 转载 





图 4-9 


通过 这 种 方式 ， 可 以 执行 端 到 端的 训练 ， 避 免 使 用 多 个 分 类 器 。 请 注意 ，SVM 由 softmax 
层 替 换 ， 框 回归 (box regressor ) 由 边界 框 回归 (bounding box regressor ) 取代 。 这 种 方法 仍然 存 
在 选择 性 搜索 的 缺点 ， 这 需要 一 定 的 执行 时 间 。 





4.4.3 Faster R-CNN 


Faster R-CNN 由 Ren 等 人 提出 。FasterR-CNN 和 Fast R-CNN 方法 的 区 别 在 于 ,前 者 使 用 VGG 
和 Inception 等 架构 的 CNN 来 代替 选择 性 搜索 。 CNN 特征 进一步 经 过 区 域 建议 网 络 处 理 。 特征 经 
过 一 个 滑动 窗口 来 输出 潜在 边界 框 和 评分 ， 也 输出 一 些 直 观 的 宽 高 比 。 图 4-10 展示 了 模型 输出 
边界 框 和 评分 。 
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Faster R-CNN 比 Fast R-CNN 更 快 ， 因 为 它 仅 计算 一 次 特征 ， 这 样 就 节省 了 计算 量 。 





4.4.4 SSD ( 单 射 多 框 探测 器 ) 


SSD ( single shot multi-box detector ) 是 所 有 方法 中 速度 最 快 的 。 该 方法 能 够 同时 预测 目标 并 
找到 边界 框 。 在 训练 过 程 中 , 可 能 会 有 很 多 负 样 本 , 可 以 使 用 难 分 样本 挖掘 ( hard negative mining ) 
来 解决 类 别 失 衔 。CNN 的 输出 具有 各 种 大 小 的 特征 。 这 些 被 传递 给 3 x 3 卷 积 滤波 器 以 预测 边界 杠 


这 一 步 预测 目标 和 边界 框 ， 如 图 4-11 所 示 。 
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* 经 Liu 等 人 许可 转载 


















































图 4-11 


这 些 是 可 用 于 目标 检测 的 算法 ， 我 们 将 在 下 一 节 中 学 习 如 何 实现 它们 。 

















4.5 目标 检测 API 


Google 发 布 了 使 用 各 种 算法 在 COCO 数据 集 上 进行 训练 得 到 的 预 训 练 模型 ， 以 供 公 众 使 用 。 
该 API 建立 在 TensorFlow 之 上 ， 用 于 构建 、 训 练 和 部 署 目标 检测 模型 。 这 些 API 支持 目标 检测 
和 定位 任务 。 可 用 的 预 训 练 模型 可 以 对 新 数据 进行 微调 ， 从 而 加 快 训练 速度 。 这 些 不 同 的 模型 在 
速度 和 准确 率 上 各 有 优 缺 点 。 











4.5.1 安装 和 设置 


使 用 以 下 命令 安装 Protocol Buffers ( protobuf ) 编译 器 。 为 protobuf 创建 一 个 目录 并 直接 下 
载 该 库 : 

mkdir protoc 3.3 

cd protoc 3.3 


wget https://github.com/google/protobuf/releases/download/v3.3.0/protoc-3. 
3.0-1Linux-x86_64.zip 


更 改 文件 夹 的 权限 并 提取 内 容 ， 如 下 所 示 : 


chmod 775 protoc-3.3.0-linux-x86_ 64.zip 
unzip protoc-3.3.0-linux-x86_64.zip 
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protobuf 用 于 序列 化 结构 化 数据 ， 是 Google 提出 的 具有 语言 中 立 、 平 台 无 关 和 可 扩展 特点 的 
机 制 。 它 提供 类 似 XML 的 服务 , 但 更 简单 快捷 。 在 TensorFlow 中 ,模型 通常 导出 为 这 种 格式 。 人 
们 只 定义 一 次 数据 结构 ， 但 可 以 用 各 种 语言 读 取 或 写 人 。 然 后 运行 以 下 命令 来 编译 protobuf。 回 到 
工作 文件 夹 ， 从 https://github.conytensorflow/models.git 克隆 repo， 并 将 它们 移动 到 以 下 文件 夹 : 


git clone https://github.com/tensorflow/models.git 
现在 ， 使 用 以 下 代码 将 模型 移动 到 research 文件 夹 : 


cd models/research/ 
~/protoc 3.3/bin/protoc object detection/protos/*.proto --python out=. 











TensorFlow 目标 检测 API 使 用 protobuf 来 导出 模型 权重 和 训练 参数 。TensorFlow 、models、 
research 和 slim 目录 应 通过 以 下 命令 附加 到 PYTHONPATH 中 : 


export PYTHONPATH=.:./slim/ 








| 











使 用 上 述 命令 添加 到 python 路 径 只 能 运行 一 次 。 接 下 来 ， 这 个 命令 必须 再 
过 运行 以 下 代码 来 测试 安装 : 

python object detection/builders/model builder test.py 

这 上段 代码 的 输出 如 下 所 示 : 


Ran 7 tests in 0.022s 





。 可 以 通 


村 
i 











OK 


有 关 安 装 的 更 多 信息 可 以 从 https://github.com/tensorflow/models/blob/master/research/ 
object detection/g3doc/installation.md 获取 。 现 在 已 经 安装 完成 并 经 过 了 测试 。 


4.5.2” 预 训练 模型 


有 几 种 模型 经 过 预 训练 是 可 用 的 。 所 有 这 些 模型 都 在 COCO 数据 集 上 进行 了 训练 ， 可 用 于 
检测 COCO 数据 集中 存在 的 目标 ， 例 如 人 和 汽车 。 这 些 模型 对 于 新 任务 的 迁移 学 习 也 很 有 用 ， 
如 交通 标志 检测 。 表 4-1 显示 了 一 些 预 训 练 模型 ， 其 中 有 模型 在 COCO 数据 集 上 的 相对 速度 和 
mAP。 各 种 不 同 的 算法 都 是 用 不 同 的 CNN 训练 的 ， 并 用 名 字 来 描述 。 













































































表 4-1 
模型 名 称 速 度 COCO mAP 
ssd_mobilenet_v1_coco 快 21 
ssd_inception v2_coco 快 24 
rfcn_resnet101_ coco 中 等 30 
faster_rcnn_resnet101_coco 中 等 32 


faster_ rcnn_inception resnet_V2_atrous_coco 慢 37 
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你 可 以 根据 需要 从 模型 中 进行 选择 。 下 载 经 过 Mobilenet 训练 的 SSD 模型 并 将 其 解压 缩 ， 进 
入 工作 目录 ， 如 下 所 示 : 


mkdir Chapter04 && cd Chapter04 

wget 
http://download.tensorflow.org/models/object detection/ssd mobilenet v1 coco 11 06 
_2017 .七 ar .GZ 

tar -XzVE ssd mobilenet vi1 coco 11 06_2017 .tar .gz 


Chapter04 文件 夹 中 包含 各 种 文件 ， 这 些 文件 在 此 处 列 出 。 


口 这 是 图 的 原始 定义 : graph.pbtxt。 

口 冻结 图 的 权重 ， 可 以 用 于 推断 : freeze_inference_graph.pb。 
口 检查 点 文件 。 

mm model.ckpt.data-00000-of-00001 

mm model.ckpt.meta 




















@m model.ckpt.index 


该 模型 将 在 下 一 节 中 用 于 检测 任务 。 





4.5.3 重新 训练 目标 检测 模型 


同样 的 API 可 以 让 我 们 重新 训练 自 定义 数据 集 的 模型 。 训 练 自 定义 数据 涉及 数据 集 的 准备 、 
选择 算法 和 执行 微调 。 整 个 流水 线 可 以 作为 一 个 参数 传递 给 训练 脚本 。 训 练 数据 必须 转换 为 
TensorFlow 记录 。TensorFlow 记录 是 由 Google 提供 的 一 种 文件 格式 ， 能 够 比 常规 文件 更 快 地 读 
取 数 据 。 现 在 ， 让 我 们 浏览 一 下 训练 的 步骤 。 


1. 为 宠物 数据 集 做 数据 准备 
本 例 使 用 Oxford-IIT Pet 数据 集 。 使 用 Chapter04 目录 中 的 这 些 命令 下 载 图 像 和 标定 。 


wget http://www.robots.ox.ac.uk/~vgg/data/pets/data/images.tar.gz 
wget http://www.robots.ox.ac.uk/~vgg/data/pets/data/annotations.tar.gz 


提取 图 像 和 标定 ， 如 下 所 示 : 


tar -xvf images.tar.gz 
tar -xvf annotations.tar.gz 


创建 pet_ 给 记录 文件 以 在 给 记录 中 创建 数据 集 , 因为 它们 是 目标 检测 训练 器 的 必需 输入 。Pet 
数据 集 的 label_map 可 以 在 object_detection/data/pet_label map.pbtxt 处 找到 。 移 至 research 文件 
夹 并 运行 以 下 命令 : 
python object detection/create pet tf record.py \ 
--label map path=object detection/data/pet_ label map.pbtxt \ 


--data dir=~/chapter4/. \ 
--output dir=~/chapter4/. 
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可 以 在 名 为 pet_train.record 和 pet_val.record 的 research 目录 中 看 到 两 个 .record 文件 。 


2. 目标 检测 训练 流水 线 
必须 为 训练 配置 好 训练 protobuf。 以 下 五 件 事 在 这 个 过 程 中 很 重要 


口 模型 类 型 的 模型 配置 ; 

口 用 于 标准 训练 参数 的 train_config; 
口 必须 报告 的 指标 eval_config; 

口 用 于 数据 集 的 train_input_ 配置 ; 

口 用 于 评估 数据 集 的 eval_input_ 配 置 。 


我 们 将 使 用 https://github.com/tensorflow/models/blob/master/research/object_detection/samples/ 
configs/ssd_mobilenet_v1_pets.config 中 的 配置 文件 。 通 过 运行 以 下 命令 将 其 下 载 到 Chapter04 文 
件 夹 。 打 开 配 置 文件 并 编辑 以 下 行 : 


fine tune checkpoint: 
"~/Chapter04/ssd_ mobilenet_v1_coco_11 06_ 2017/model.ckpt" 





























train input_reader: { 
tf_record_ input_reader { 
input_path: "~/Chapter04/pet_ train.record" 
} 
label_map_path: 
"~/model/research/object_ detection/data/pet_label_ map.pbtxt" 
} 


eval_input_reader: { 
tf_record input_reader { 
input_path: "~/Chapter04/pet_val.record" 
} 
label_ map_path: 
"~/model/research/object_detection/data/pet_label_ map.pbtxt" 
} 


保存 config 文件 。 文 件 中 的 各 种 参数 会 影响 模型 的 准确 性 。 

3. 训练 模型 

现在 API、 数 据 和 配置 文件 已 准备 好 重新 训练 。 训 练 可 以 通过 以 下 命令 触发 : 

PYTHONPATH=.:./slim/. python object detection/train.py \ 
--logtostderr \ 


--pipeline config path=~/chapter4/ssd mobilenet v1 pets.config \ 
--train dir=~/Chapter04 


训练 将 从 约 140 的 损失 开始 ， 并 继续 下 降 。 训 练 会 永久 运行 ， 必 须 通过 Ctrl+C 命令 手动 杀 
死 。 训 练 期 间 创建 的 检查 点 可 以 稍 后 用 于 推断 。 
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4. 使 用 TensorBoard 监测 损失 和 准确 率 
使 用 TensorBoard 可 以 监测 训练 损失 和 准确 率 。 使 用 以 下 命令 运行 TensorBoard: 


tensorboard --logdir=/home/ubuntu/Chapter04 


训练 和 评估 都 可 以 在 TensorBoard 中 查看 。 


4.5.4 ”为 自动 驾驶 汽车 训练 行人 检测 


在 自动 驾驶 汽车 的 情况 下 ,图 像 上 会 有 四 个 类 用 于 标记 : 行人 、 汽 车 、 摩 托 车 和 背景 。 当 没 
有 任何 类 存在 时 ， 必 须 检 测 背 景 类 。 训 祭 深 度 党 习 分 类 模 型 的 一 个 假设 是 ,至 0 
现在 图 像 中 。 我 们 通过 添加 backgrouna 类 ， 正 努力 克服 这 个 问题 。 神 经 网 络 也 可 以 从 标签 
成 目标 的 边界 框 。 
































4.6 YOLO 目标 检测 算法 


You Only Look Once( YOLO ) 是 最 近 出 现 的 一 个 目标 检测 算法 。 图 像 分 为 多 个 网 格 ， 每 个 
网 格 单元 格 都 运行 相同 的 算法 。 让 我 们 通过 使 用 初始 化 器 定义 一 些 层 来 开始 实现 : 


def pooling_layer (input_layer, pool_ size=[2, 2], strides=2, padding='valid'): 
layer = tf.layers.max_ pooling2d( 
inputs=input_layer, 
pool_size=pool_size, 
strides=strides, 
padding=padding 








) 
adqd_variable_summary (layer, 'pooling') 
return layer 


def convolution_ layer (input_layer, filters, kernel_ size=[3, 3], padding='valid', 
activation=tf.nn.leaky_relu): 

layer = tf.layers.conv2d( 
inputs=input_layer, 
filters=filters, 
kernel_size=kernel_size, 
activation=activation, 
padding=padding, 
weights_initializer=tf.truncated normal_ initializer(0.0, 0.01), 
weights_regularizer=tf.]12_regularizer(0.0005) 

) 

adqd_variable_summary (layer, 'convolution') 

return layer 


def dense_layer (input_layer, units, activation=tf.nn.leaky_relu): 
layer = tf.layers.densel 
inputs=input_layer, 
units=units, 
activation=activation, 
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weights_initializer=tf.truncateqd normal initializer(0.0, 0.01), 
weights_regularizer=tf.12_regularizer(0.0005) 


) 
adqd_variable_ summary (layer, 'dense') 
return layer 


可 以 注意 到 激活 层 是 leaky_relu, 权重 是 用 截断 的 正 态 分 布 初始 化 的 。 这些 修 改 后 的 层 可 
用 于 构建 模型 。 该 模型 创建 如 下 : 



































yolo = tf.pad(images, np.array ([[0, 0], [3, 3], [3, 3], [0, 0]]), name='pad_1') 
yolo = convolution layer(yolo, 64, 7, 2) 
yolo = pooling_ layer(yolo, [2, 2], 2, 'same') 
yolo = convolution layer (yolo, 192, 3) 
yolo = pooling_ layer (yolo, 2, 'same') 

yolo = convolution layer(yolo, 128, 1) 
yolo = convolution layer (yolo, 256, 3) 
yolo = convolution layer(yolo, 256, 1) 
yolo = convolution_ layer (yolo, 512, 3) 
yolo = pooling_layer(yolo, 2, 'same') 

yolo = convolution layer(yolo, 256, 1) 
yolo = convolution layer (yolo, 512, 3) 
yolo = convolution layer(yolo, 256, 1) 
yolo = convolution layer (yolo, 512, 3) 
yolo = convolution layer (yolo, 256, ) 
yolo = convolution_ layer (yolo, 512, 3) 
yolo = convolution layer (yolo, 256, 1) 
yolo = convolution layer (yolo, 512, 3) 
yolo = convolution layer(yolo, 512, 1) 
yolo = convolution layer (yolo, 1024, 3) 
yolo = pooling_layer (yolo, 2) 

yolo = convolution layer (yolo, 512, 1) 
yolo = convolution_ layer(yolo, 1024, 3) 
yolo = convolution layer (yolo, 512, 1) 
yolo = convolution layer (yolo, 1024, 3) 
yolo = convolution_ layer(yolo, 1024, 3) 
Yolo = tf,.Bpad(lyolo,y nparray (EL0 Ol [ly Tl TL Ll [0 0.)) 
yolo convolution_ layer (yolo, 1024, 3, 2) 
yolo = convolution_ layer(yolo, 1024, 3) 
yolo = convolution _ layer (yolo, 1024, 3) 
yolo = tf.transpose(yolo, [0, 3, 1, 2]) 
yolo = tf.layers.flattenl(yolo) 

yolo = dense_layer (yolo, 512) 

yolo = dense_layer (yolo, 4096) 


dropout_bool = tf.placeholder (tf.bool) 
yolo = tf.layers.dropout!( 
inputs=yolo, 
rate=0.4, 
training=dropout_bool 





) 


yolo = dense_ layer (yolo, output_size, None) 


几 个 卷 积 层 堆 县 在 一 起 ,产生 YOLO 网 络 。 该 网 络 用 于 创建 实时 的 目标 检测 算法 。 
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4.7 小 结 


在 本 章 中 ,我 们 学 习 了 目标 定位 和 目标 检测 任务 之 间 的 区 别 , 讨论 了 儿 个 数据 集 和 评估 标准 。 
还 讨论 了 各 种 定位 问题 和 算法 的 方法 , 例如 用 于 目标 检测 的 R-CNN 和 SSD 模型 的 变 体 ， 然后 又 
介绍 了 开放 源 代码 库 中 检测 的 实现 。 我 们 使 用 这 些 技术 为 行人 检测 训练 了 一 个 模型 , 还 了 解 了 训 
练 此 类 模型 的 各 种 权衡 。 


在 下 一 章 中 , 我 们 将 学 习 语义 分 割 算法 , 并 利用 这 些 知 识 来 实现 医学 成 像 和 卫星 图 像 问题 的 
分 割 算 法 。 


























语义 分 割 

















本 章 中 ,我 们 将 学 习 各 种 语义 分 割 ( semantic segmentation ) 技术 ， 并 为 此 训练 模型 。 分 割 是 
一 种 像素 级 别 的 分 类 任务 。 解 决 分 割 问题 的 思路 是 目标 检测 问题 的 延伸 。 分 割 在 医疗 图 像 和 卫星 
图 像 的 理解 等 应 用 中 非常 有 用 。 


本 章 涉 及 以 下 主题 : 


口 语义 分 割 和 实例 分 割 (instance segmentation ) 之 间 的 区 别 ; 

口 分 割 数 据 集 和 指标 ; 5 
口 语义 分 割 算 法 ; 

口 分 割 在 医学 图 像 和 卫星 图 像 中 的 应 用 ; 

口 实例 分 割 算 法 。 


























5.1 预测 像素 


图 像 分 类 任务 预测 标签 或 类 别 。 目 标 检测 任务 通过 几 个 深度 学 习 算法 预测 目标 边界 框 。 在 边 
界 框 内 部 可 能 具有 除了 检测 目标 之 外 的 其 他 目标 。 在 一 些 应 用 中 , 将 每 个 像素 标记 为 标签 是 很 重 
要 的 ， 而 不 只 是 标记 可 能 具有 多 个 目标 的 边界 框 。 语 义 分 割 是 预测 像素 级 标签 的 任务 。 


5-1 是 一 幅 图 像 及 其 相应 语义 分 割 的 例子 。 



























































图 5-1 


























如 图 5-1 所 示 , 输入 图 像 对 每 个 像素 用 标签 进行 预测 。 标签 可 以 是 天 空 、 大 海 、 人 、 山 和 桥 。 
将 标签 分 配给 每 个 像素 ,而 不 是 分 配给 整 幅 图 像 。 语 义 分 割 独 立地 标记 像素 。 你 会 注意 到 图 像 中 
没有 区 分 任何 人 ， 所 有 人 都 以 相同 的 方式 标记 。 


图 5-2 中 区 分 了 相同 标签 的 实例 。 
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图 。5-2 








使 用 像素 级 标签 分 割 每 个 实例 的 任务 称 为 实例 分 割 。 实 例 分 割 可 以 视 为 使 用 像素 级 标签 对 目 
标 检 测 做 扩展 。 语 义 分 制 和 实例 分 割 的 应 用 非常 广泛 ， 在 接 下 来 的 几 节 中 将 介绍 其 中 一 些 应 用 。 














5.1.1 诊断 医学 图 像 


医学 图 像 可 以 用 分 割 技术 来 诊断 。 磁 共振 成 像 (MRI)、 计 算 机 断层 扫描 (CT ) 和 视网膜 病 
变 等 现代 医学 成 像 技术 能 生成 高 质量 的 图 像 。 这 些 技术 产生 的 图 像 可 以 分 割 成 不 同 的 区 域 ， 以 检 
测 脑 部 扫描 的 肿瘤 或 视网膜 扫描 的 斑点 。 一 些 设备 提供 的 体积 图 像 也 可 以 通过 分 割 技术 进行 分 
析 。 分 割 机 器 人 手术 视频 使 医生 能 够 在 机 器 人 辅助 手术 中 仔细 查看 区 域 。 本 章 后 面 将 介绍 如 何 分 
割 医学 图 像 。 




















5.1.2 通过 卫星 图 像 了 解 地 球 


最 近 卫 星 图 像 变 得 越 来 越 丰富 。 卫 星 拍 摄 的 图 像 提 供 了 地 球 全 表面 的 高 分 辨 率 视 图 。 通过 分 
析 卫 星 图 像 ， 我 们 可 以 了 解 关于 地 球 的 一 些 事情 ， 例 如 : 


口 衡量 与 国家 经 济 增长 相关 的 国家 建设 速度 ; 
口 测量 油库 ; 

口 规划 和 组 织 交 通 ; 
口 计算 森林 砍伐 的 量 及 其 影响 ; 

口 通过 对 动物 进行 计数 并 跟踪 它们 的 移动 来 帮助 保护 野生 动物 ; 
口 发 现 考 古 遗 址 ; 

口 绘制 受 自 然 灾 害 影响 的 受 损 地 区 。 












































卫星 图 像 有 更 多 的 应 用 可 能 。 对 于 上 面 提 到 的 大 多 数 问题 ,解决 方案 都 从 卫星 图 像 的 分 割 开 
始 。 本 章 后 面 将 介绍 如 何 分 割 卫星 图 像 。 








5.1.3 ”提供 机 器 人 视觉 


分 割 场景 对 于 机 器 人 看 到 世界 并 与 周围 世界 互动 至 关 重 要 。 工业 机 器 人 和 家 庭 机 器 人 必须 能 
人 够 处 理 目标 。 一 旦 为 机 器 人 提供 视觉 使 其 能 够 跟随 目标 移动 , 相应 的 处 理 就 成 为 可 能 。 机 器 人 视 
觉 还 有 一 些 值得 一 提 的 应 用 。 
口 分 割 缺陷 的 工业 检验 工具 。 
口 时 装 业 的 颜色 诊断 : 可 以 用 不 同 的 时 尚 目标 对 图 像 进行 分 割 ， 并 将 这 些 时 尚 目标 用 于 颜 
色 分 析 。 
口 区 分 前 景 和 背景 以 产生 肖像 效果 。 
下 一 节 将 介绍 一 些 用 于 评估 分 割 算法 的 公共 数据 集 。 









































5.2 ”数据 集 

第 4 章 中 提 到 的 PASCAL 和 COCO 数据 集 也 可 以 用 于 分 割 任务 。 但 标定 是 不 同 的 ， 对 于 分 
市 任务 它们 是 以 像素 级 标记 的 。 新 算法 通常 以 COCO 数据 集 为 基准 。COCO 还 具有 诸如 草 、 墙 
和 天 空 之 类 的 数据 集 。 像 素 准 确 率 属 性 可 以 用 作 评 估算 法 的 度量 。 

为 分 割 任务 创建 训练 数据 非常 昂贵 。 可 以 使 用 在 线 工 具 标定 你 的 数据 集 ， 比 如 麻 省 理工 大 学 
提供 的 LabelMe 移动 应 用 程序 。 












































5.3 ”语义 分 割 算 法 


为 解决 图 像 分 割 任务 , 相继 提出 了 儿 种 基于 深度 学 习 的 算法 。 滑动 窗口 方法 可 以 应 用 于 像素 
级 分 割 。 滑 动 窗口 方法 获取 图 像 并 将 图 像 分 解 为 较 小 的 图 块 ， 每 个 图 块 都 被 分 类 为 标签 。 这 种 方 
法 既 昂 贵 又 低 效 ,因为 它 不 会 重用 重 准 图 块 之 间 的 共享 特征 。 接 下 来 , 我 们 将 讨论 一 些 可 以 克服 
这 个 问题 的 算法 。 

















5.3.1 全 卷 积 网 络 


全 卷 积 网 络 ( fully convolutional network，FCN ) 引入 了 端 到 端 卷 积 网 络 的 思想 。 任 何 标 准 
CNN 架构 删除 全 连接 层 后 都 可 以 用 于 FCN。 在 第 4 章 中 给 出 了 它 的 实现 。 全 连接 层 被 卷 积 层 取 代 ， 
最 后 几 层 的 深度 较 高 , 尺寸 较 小 。 因此, 可 以 执行 1D 卷 积 以 达到 所 需 的 标签 数量 。 但 是 对 于 分 割 ， 
必须 保留 空间 维度 。 因 此 ， 全 卷 积 网 络 是 在 没有 最 大 池 化 的 情况 下 构建 的 ， 如 图 5-3 所 示 。 


















































图 5-3 
该 网 络 的 损失 通过 平均 每 个 像素 和 小 批 次 的 交叉 炉 损失 来 计算 ,最 后 一 层 的 深度 等 于 类 别 的 
数量 。FCN 类 似 于 目标 检测 ， 只 是 空间 维度 被 保留 了 。 由 于 某 些 像素 可 能 被 错误 地 预测 ， 因 此 该 
架构 产生 的 输出 将 会 很 粗糙 。FCN 的 计算 量 很 高 ， 在 下 一 节 中 ， 我 们 将 学 习 如 何 解 决 这 个 问题 。 














5.3.2 ”SegNet 架构 


SegNet 具有 编码 器 和 解码 器 方法 。 它 的 编码 需 具 有 各 种 卷 积 层 ， 而 解码 需 具 有 各 种 反 卷 积 
(deconvolution ) 层 。SegNet 改进 了 FCN 的 粗糙 输出 。 正 因为 如 此 ， 它 只 占用 较 少 的 内 存 。 当 特 
征 维 度 减 小 时 , 通过 反 卷 积 再 次 对 图 像 尺寸 进行 上 采样 ， 从 而 反 转 卷 积 的 效果 。 反 卷 积 学 习 上 采 
样 的 参数 。 由 于 池 化 层 中 的 信息 丢失 ， 这 种 架构 的 输出 会 很 粗糙 ， 如 图 5-4 所 示 。 
































图 5-4 


接 下 来 学 习 一 些 新 的 概念 : 上 采样 、 带 洞 卷 积 〈atrous convolution ) 和 转 置 卷 积 ( transpose 
convolution )。 这 有 助 于 我 们 更 好 地 理解 这 个 网 络 。 


1. 通过 池 化 对 层 进行 上 采样 


在 第 1 章 中 ,我 们 讨论 了 最 大 池 化 。 最 大 池 化 是 一 种 采样 策略 ， 可 以 从 窗口 中 选取 最 大 值 。 
这 对 于 上 采样 来 说 是 相反 的 。 每 个 值 都 用 零 包 围 ， 从 而 对 层 进行 上 采样 ， 如 图 5-5 所 示 。 
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图 5-5 


零 被 添加 到 与 上 采样 的 数字 同样 的 位 置 。 通 过 记 住 下 采样 的 位 置 并 将 其 用 于 上 采样 , 可 以 改 
善 去 池 化 (unpooling )， 如 图 5-6 所 示 。 























从 索引 来 看 ， 上 采样 比 添加 零 产生 的 结果 更 好 。 池 化 对 层 进 行 上 采样 是 不 通过 学 习 的 ， 而 是 
按 规则 运行 的 。 接 下 来 介绍 如 何 用 可 学 习 参 数 进行 上 采样 和 下 采样 。 


2. 用 卷 积 对 层 进行 采样 


可 以 使 用 卷 积 直接 对 层 进行 上 采样 或 下 采样 。 增 加 用 于 卷 积 的 步 幅 可 以 导致 下 采样 ， 如 图 5-7 
所 示 。 





滤波 器 和 输 
入 的 点 积 
一 一 
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通过 卷 积 进行 下 采样 被 称 为 空洞 卷 积 ( atrous convolution ) 或 膨胀 卷 积 (dilated convolution ) 
或 步 幅 卷 积 ( strided convolution )。 同样 , 通过 学 习 如 图 5-8 所 示 的 卷 积 核 , 它 可 以 反 转 为 上 采样 。 





输入 带 给 滤 
波 器 权重 
aa 




















图 5-8 


直接 使 用 卷 积 进行 上 采样 称 为 转 置 卷 积 ( transposed convolution )。 其 同义词 有 反 卷 积 
( deconvolution )、 分 数 步 幅 卷 积 ( fractionally strided convolution ) 和 上 卷 积 (up-convolution )。 现 
在 我 们 了 解 了 上 采样 的 过 程 。 以 下 代码 描述 了 之 前 的 算法 : 


input_height = 360 
input_width = 480 
kernel = 3 
filter_size = 64 
elke 三 > 业 

pool_size = 2 


接收 输入 后 ,接着 是 尺寸 减 小 的 通常 的 卷 积 神经 网 络 ， 可 以 称 为 编码 器 。 以 下 代码 可 用 于 定 
义 编码 央 : 
model = tf.keras.models.Sequential() 


model.add (tf.keras.layers.Layer (input_shape=(3, input_ height, input_width))) 








# encoder 
model.add (tf.keras.layers.ZeroPadding2D (padding= (pad, pad))) 
model.add( .keras.layers.Conv2D(filter_ size, kernel, kernel, 
border_mode='valid')) 
model.add (tf.keras.layers.BatchNormalization()) 


Ct et 

















model.add (tf.keras.layers.Activation('relu')) 

model.add (tf.keras.layers.MaxPooling2D (pool_size=(pool_ size, pool_ size))) 
model.add (tf.keras.layers.ZeroPadding2D (padding= (pad, pad))) 

model.add (tf.keras.layers.Conv2D(128, kernel, kernel, border mode='valid')) 
model.add (tf.keras.layers.BatchNormalization()) 

model.add (tf.keras.layers.Activation('relu')) 
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model.add (tf.keras.layers.MaxPooling2D(pool_size=(pool_size, pool_ size))) 
model.add (tf.keras.layers.ZeroPadding2D (padding= (pad, pad))) 
model.add (tf.keras.layers.Conv2D(256, kernel, kernel, border mode='valid')) 
model.add (tf.keras.layers.BatchNormalization()) 
model.add (tf.keras.layers.Activation('relu')) 
model.add (tf.keras.layers.MaxPooling2D(pool_size=(pool_size, pool_ size))) 
model.add (tf.keras.layers.ZeroPadding2D (padding= (pad, pad))) 
model.add (tf.keras.layers.Conv2D(512, kernel, kernel, border mode='valid')) 
model.add (tf.keras.layers.BatchNormalization()) 
model.add (tf.keras.layers.Activation('relu')) 

















# decoder 


model 
model 
model 


model 
model 
model 
model 


model 
model 
model 
model 


model 
model 
model 
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tf. 
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Keras 


Keras 





KEeras 


Keras. 
Keras. 
Keras. 


KerAas. 
Keras. 
Keras. 


KerAas. 
Keras. 
Keras. 


keras. 
keras. 
keras. 
valid')) 
.keras 


Jayers 
lJayers 
layers 


Jayers 
lJayers 
Jayers 
.layers 


.layers 
lJayers 
lJayers 
Jayers 


Jayers 
lJayers 
layers 


.layers 


.layers. 


编码 器 的 输出 可 以 随 着 尺寸 的 增加 被 送 到 解码 器 ， 如 下 所 示 : 


.ZeroPadding2D (padding= (pad, pad))) 
.Conv2D(512, kernel, kernel, border mode='valid')) 
.BatchNormalization()) 





.BatchNormalization()) 


.UpSampling2D(size=(pool_size, pool_size))) 
.ZeroPadding2D (padding= (pad, pad))) 
.Conv2D(256, kernel, kernel, border mode='valid')) 
.BatchNormalization()) 


.UpSampling2D(size=(pool_size, pool_size))) 
.ZeroPadding2D (padding= (pad, pad))) 
.Conv2D(128, kernel, kernel, border mode='valid')) 
.BatchNormalization()) 


.UpSampling2D(size=(pool_size, pool_size))) 
.ZeroPadding2D (padding= (pad, pad))) 
.Conv2D (filter_size, kernel, kernel, 


Conv2D(nClasses, 1, 1, border mode='valid', ) 





解码 后 的 图 像 与 输入 尺寸 相同 ， 可 以 使 用 以 下 代码 训练 整个 模型 : 


model. 
model. 


model. 
model. 


model. 


model. 
model. 


outputHeight 
outputWidth 


add(tf.keras.layers.Reshape( (nClasses, 


= model.output_shape[-2] 


= model. 


output_shape[-1]), 





input_shape= (nClasses, 


output_shape[-1]))) 


output_shape[-1] 


add(tf.keras.layers.Permute((2, 1))) 
add (tf.keras.layers.Activation('softmax')) 


model.compile(loss="categorical_crossentropy", 
optimizer=tf.keras.optimizers.Adam, metrics=['accuracy']) 


model.output_shapel[l- 


model.output_shape[-2] * 


2]， 
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这 种 编码 和 解码 图 像 的 方式 克服 了 基于 FCN 的 模型 的 缺点 。 接 下 来 将 介绍 一 个 使 用 膨胀 卷 
积 的 不 同 概念 。 


3. 跳跃 连接 以 获得 更 好 的 训练 


分 割 输出 的 粗糙 度 可 以 通过 跳跃 架构 ( skip architecture ) 来 限制 ， 并 且 可 以 获得 更 高 的 分 辩 
率 。 另 一 种 蔡 代 方法 是 按 图 5-9 所 示 放 大 最 后 三 个 层 并 对 它们 取 平 均 。 









































* 卷 积 和 池 化 系列 


一 1 x 1 卷 积 
----» 上 采样 
> 合并- 相 加 























该 算法 将 用 于 后 面 的 卫星 图 像 示 例 。 


5.3.3 ”膨胀 卷 积 

像素 级 的 分 类 和 图 像 分 类 在 结构 上 是 不 同 的 。 因 此 ， 池 化 层 会 减少 信息 并 产生 粗 燃 的 分 割 |。 
但 请 注意 , 池 化 对 于 获得 更 广 的 视野 和 人 允许 采样 至 关 重 要 。 为 了 解决 这 个 问题 , 引入 了 膨胀 卷 积 。 
膨胀 卷 积 本 质 上 是 通过 跳 过 窗口 中 的 每 个 像素 进行 卷 积 ， 如 图 5-10 所 示 。 












































































































































图 5-10 


不 同 层 之 间 的 膨胀 距离 不 同 。 这 种 分 割 结果 的 输出 被 放大 以 获得 更 精细 的 分 辩 率 。 训 练 一 个 
单独 的 网 络 进行 多 太 度 聚合 。 





5.3.4 DeepLab 


Chen 等 人 提出 的 DeepLab 在 多 个 尺度 上 执行 卷 积 ， 并 使 用 各 种 尺度 的 特征 来 获得 评分 图 。 
然后 插入 评分 图 ， 通 过 条 件 随机 场 ( CRF ) 进行 最 终 分 割 。 各 种 尺寸 的 图 像 可 以 用 CNN 处 理 ， 
或 者 通过 不 同 级别 的 膨胀 卷 积 的 并 行 卷 积 来 实现 ， 如 图 5-11 所 示 。 
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* 经 Chen 等 人 许可 转载 
图 5-11 





5.3.5 RefiNet 


膨胀 卷 积 需 要 更 大 的 输入 量 , 因此 内 存 需 求 大 。 在 使 用 高 分 辩 率 图 像 时 , 这 会 呈现 计算 问题 。 
Reid 等 人 提出 了 一 种 名 为 RefiNet 的 方法 来 应 对 这 个 问题 ， 如 图 5-12 所 示 。 


RefineNet 
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* 经 Reid 等 人 许可 转载 














图 5-12 


RefiNet 使 用 一 个 编码 器 ， 然 后 是 一 个 解码 器 。CNN 的 编码 器 输出 ， 解 码 器 连接 各 种 大 小 的 
特征 ， 如 图 5-13 所 示 。 5 
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* 经 Reid 等 人 许可 转载 





图 5-13 


通过 对 低 维度 特征 的 放大 ， 完 成 了 拼接 。 
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5.3.6 PSPnet 

Zhao 等 人 引入 的 PSPnet 使 用 全 局 内 容 ， 通 过 增加 池 化 层 的 核 大 小 来 实现 (图 5-14 )。 池 化 以 
金字 塔 形式 进行 。 金字塔 同时 涵盖 了 图 像 的 各 个 部 分 和 大 小 。 在 能 够 进行 适度 监督 的 架构 之 间 存 
在 一 定 的 损失 。 
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(a) 输入 图 像 人) 特征 图 @ 爹 于 墙 地 化 模块 (d) 最 终 预测 














* 经 Zhao 等 人 许可 转载 
图 5-14 


5.3.7 ”大 卷 积 核 的 重要 性 


Peng 等 人 展示 了 大 卷 积 核 的 重要 性 (图 5-15 )。 大 核 拥 有 比 小 核 更 大 的 感受 野 。 这 些 大 核 的 
计算 复杂 性 可 以 用 一 个 近似 的 较 小 的 核 来 克服 。 最 后 给 出 一 个 边界 细 化 网 络 。 
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* 经 Peng 等 人 许可 转载 
图 5-15 





5.3.8 DeepLab v3 


Chen 等 人 提出 了 批 归 一 化 ， 用 以 提高 性 能 。 特 征 的 多 尺度 以 级 联 方 式 编码 ， 如 图 5-16 和 
5-17 所 示 。 
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* 经 Chen 等 人 许可 转载 
图 5-16 
(a) 空洞 空间 
金字 塔 池 化 
日 1x1 卷 积 
采样 率 = 3 x3 卷 积 
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* 经 Chen 等 人 许可 转载 





图 5-17 


上 述 几 种 架构 使 用 深度 学 习 提 高 了 图 像 分 割 的 准确 率 。 接 下 来 , 我 们 将 学 习 它 在 医疗 成 像 的 
应 用 。 


5.4 超 神 经 分 割 


Kaggler 是 一 个 在 预测 建 模 和 分 析 方 面 进 行 竞 赛 的 组 织 ， 曾 组 织 挑战 从 颈 部 超声 波 图 像 中 分 
割 神经 结构 。Ronneberger 等 人 提出 的 UNET 模型 类 似 于 一 个 自 编码 器 ,但 使 用 的 是 卷 积 而 不 是 
全 连接 层 。 该 模型 有 一 个 编码 器 和 一 个 解码 器 。 编 码 器 部 分 使 用 卷 积 减少 维度 ,解码 器 部 分 增加 
维度 ， 如 图 5-18 所 示 。 
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* 经 Ronneberger 等 人 许可 转载 
图 5-18 


类 似 大 小 的 编码 右 和 解码 絮 部 分 的 卷 积 通过 层 间 的 跳跃 连接 ( skip connection ) 进行 学 习 。 


模型 的 输出 是 一 个 范围 在 0 到 1 之 间 的 掩 码 。 让 我 们 从 导入 函数 开始 ， 如 下 所 示 : 


import os 

from skimage.transform import resize 

from skimage.io import imsave 

import numpy as np 

from data import load train data, load test_data 


在 所 有 导入 之 后 ,使 用 以 下 代码 定义 尺寸 : 


image_height, image width = 96, 96 
smoothness = 1.0 
WOPR. di Ne 4 





现在 定义 dice_coefficient 及 其 损失 函数 。 在 该 例子 中 , dice_coefficient 也 是 度 


指标 : 


def dice coefficient (y1，Yy2) : 
了 tf.flattenl(yl1) 
Y2 tf.flatten (y2) 


= 


里 
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return (2. * tf.sum(yl * y2) + smoothness) / (tf.sum(yl1) + tf.sum(y2) + smoothness) 


def dice coefficient_loss(yl, y2): 
return -dice coefficient (yl, y2) 


UNET 模型 可 以 如 下 定义 : 


def preprocess (imgs): 
imgs_p = np.ndarray ((imgs.shape[0], image height, image width), 
dtype=np.uint8) 
for i in range(imgs.shape[0]) 
imgs_p[i] = resize(imgs[i], (image width, image height), 


preserve_range=True) 
imgs_p = imgs_p[..., np.newaxis] 


return imgs_p 


def covolution layer (filters, kernel=(3,3), activation='relu', 
input_shape=None): 
if input_shape is None: 
return tf.keras.layers.Conv2D( 
filters=filters, 
kernel=kernel, 
activation=activation) 
else: 
return tf.keras.layers.Conv2D( 
filters=filters, 
kernel=kernel, 
activation=activation, 
input_shape=input_shape) 








def concatenated de convolution layer (filters): 
return tf.keras.layers.concatenatel(l 
tf.keras.layers.Conv2DTransposel 
filters=filters, 
kernel=(2, 2), 
strides=(2, 2), 
padding='same' 
lp 
axis=3 


) 


所 有 层 都 被 拼接 并 使 用 ， 如 下 所 示 : 


unet = tf.keras.models.Sequential() 
inputs = tf.keras.layers.Input((image height, image width, 1)) 
input_shape = (image height, image width, 1) 


unet.add(covolution layer(32, input_shape=input_shape)) 
unet.add (covolution_ layer (32)) 
unet.add (pooling_layer()) 


unet.add (covolution_ layer (64)) 
.add (covolution_ layer (64)) 
.add (pooling_layer()) 


une 
Une 
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unet .adqdq(covolution_ layer (128)) 
unet.add (covolution layer (128)) 
unet .add (pooling_layer ()) 
unet.add (covolution layer (256)) 
unet.add (covolution layer (256)) 
unet.add (pooling_layer ()) 
unet .add (covolution_ layer (512)) 
unet .add (covolution_ layer (512)) 


层 被 拼接 起 来 ， 并 且 使 用 反 卷 积 层 : 


Une 
une 
une 


une 
Une 
une 


une 
une 
une 


une 
une 
une 


une 
une 


eet et Ce/ er 1 Po Cl 


ct ct 





Fi 





.add (concatenated de_ convolution layer (256)) 
.add (covolution layer (256)) 
.add (covolution_ layer (256)) 


.add (concatenated de convolution layer (128)) 
.add (covolution_ layer (128)) 
.add (covolution layer (128)) 


.add (concatenated de_ convolution layer (64)) 
.add (covolution_ layer (64)) 
.add (covolution_ layer (64)) 


.add (concatenated de_ convolution layer (32)) 
.add (covolution_ layer (32)) 
.add (covolution_ layer (32)) 


.add (covolution_ layer(1, kernel=(1, 1), activation='sigmoid')) 


.compile(optimizer=tf.keras.optimizers.Adam(lr=1e-5), 


loss=dice coefficient_loss, 
metrics=[dice _ coefficient]) 





接 下 来 ， 可 以 用 图 像 训练 模型 ， 如 下 所 示 : 


x_train, y_train mask = load train datal() 


x_train = preprocess (x_train) 
y_train mask = preprocess(y_train mask) 


x_train = x train.astype('float32') 


mean = np.mean (x_train) 
sta Ss nDeetd(x tia 
x_train -= mean 


Xt reali /ESE 


y_train mask = y_train mask.astype('float32') 
y_train mask /= 255. 


unet .fit (x train, y_train mask, batch size=32, 


shuffle=True, 


epochs=20, 


verbose=1, 
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validation_ split=0.2) 

x_test, y_test mask = load test_datal() 
x_test = preprocess (x_test) 
x_ test = x _ test.astype('float32') 
Xx_test -= mean 
x_test /= std 
y_test_pred = unet.predict (x_test, verbose=1) 
for image, image_id in zipl(ly_test pred, y_test mask): 

image = (image[:, :, 0] * 255.).astype (np.uint8) 

imsave (os.path.join (work_dir, str(image_ id) + '.png'), image) 








图 像 可 以 被 预 处 理 和 使 用 。 现 在 可 以 进行 图 像 的 训练 和 测试 了 。 模型 训练 好 后 ,分 制 会 产生 
不 错 的 结果 ， 如 图 5-19 所 示 。 








图 5-19 








我 们 已 经 训练 了 一 种 可 以 分 割 医学 图 像 的 模型 。 该 算法 可 以 用 于 多 种 用 例 。 在 下 一 节 中 , 我 
们 将 学 习 分 割 卫星 图 像 。 


5.5 ”分割 卫星 图 像 


在 本 节 中 , 我 们 将 使 用 国际 摄影 测量 和 遥感 学 会 ( International Society for Photogrammetry and 
Remote Sensing，ISPRS ) 提供 的 数据 集 。 该 数据 集 包 含 德国 波茨坦 卫星 图 像 ， 分 辨 率 为 5 厘米 。 
这 些 图 像 附 带 图 像 的 红外 数据 和 高 度 轮廓 数据 。 有 六 个 与 图 像 相 关 的 标签 : 


D 建筑 物 ; 

口 植被 ; 

口 树 ; 

口 出 租车 ; 

口 杂 波 〈clutter ); 

口 抗 渗 (impervious )。 


该 数据 集 共 提供 38 幅 图 像 和 6000 x 6000 个 图 块 。 请 转 到 页 面 填写 表单 ,在 表单 上 选择 以 下 
选项 (图 5-20 )。 















































您 对 哪些 数据 集 感 兴趣 





ss | Toronto 图 Potsdam 





Detection or Reconstruction 
同 Semantic Labeling 


您 对 检测 /重建 基准 还 是 语义 标签 基准 感 兴趣 
pe both 














图 5-20 


发 送 表单 后 ， 会 发 送 给 你 一 封 电子 邮件 ， 可 以 从 中 下 载 数据 。 


为 分 割 建 模 FCN 
导入 库 并 获取 输入 的 形状 。 标 签 数量 定义 为 6: 


from .resnet50 import ResNet50 
nb_labels = 6 


img_height, img_ width, _ = input_shape 
input_tensor = tf.keras.layers.Input (shape=input_shape) 
weights = 'imagenet' 





在 ImageNet 上 预 训练 过 的 ResNet 模型 将 被 用 作 基 础 模型 。 使 用 ResNet 定义 基础 模型 ， 


下 所 示 : 


resnet50_model = ResNet50( 
include_ top=False, weights='imagenet', input_ tensor=input_tensor) 


使 用 以 下 代码 从 ResNet 中 获取 最 后 三 个 层 : 


final_32 = resnet50_model.get_layer('final_32') .output 
final_16 = resnet50_model.get_layer('final_16') .output 
final_x8 = resnet50_model.get_layer('final x8') .output 


每 个 跳跃 连接 ( skip connection ) 都 必须 进行 压缩 以 匹配 等 于 标签 数 的 通道 : 


c32 = tf.keras.layers.Conv2D(nb_labels, (1, 1)) (final_32) 
c16 = tf.keras.layers.Conv2D(nb_labels, (1, 1)) (final_16) 
c8 = tf.keras.layers.Conv2D(nb_labels, (1, 1)) (final_ x8) 












































如 


可 以 使 用 双 线 性 插值 来 调整 压缩 跳跃 连接 的 输出 大 小 。 插 值 可 以 通过 计算 TensorFlow 操作 


的 Lambda 层 实 现 。 使 用 lambda 层 进行 插值 ， 如 下 所 示 : 


def resize bilinear (images): 
return tf.image.resize _ bilinear (images, [img_ height, img_ width]) 
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次 32 tf.keras.layers.Lambda (resize bilinear) (c32) 
6 tf.keras.layers.Lambda (resize bilinear) (c16) 
r8 = tf.keras.layers.Lambda (resize bilinear) (c8) 


我 们 定义 的 三 个 层 可 以 通过 添加 三 个 值 进行 合并 ,使 用 以 下 代码 : 
m = tf.keras.layers.Add() ([r32, r16, r8]) 


可 以 使 用 softmax 激活 函数 来 应 用 模型 的 概率 。 该 模型 在 应 用 softmax 前 后 调整 大 小 : 








x = tf.keras.ayers.Reshape( (img_height * img_width, nb_labels)) (my) 
x = tf.keras.layers.Activation('img_ height') (x) 
x = tf.keras.layers.Reshape((img_ height, img_width, nb_labels)) (x) 


fcn model = tf.keras.models.Model (input=input_tensor, output=x) 


一 个 简单 的 FCN 层 已 经 被 定义 ， 在 训练 后 会 得 出 如 图 5-21 所 示 的 结果 。 














RGB 

















图 5-21 


你 可 以 看 到 六 个 标签 的 预测 是 合理 的 。 接 下 来 学 习 分 割 实例 。 


5.6 ”分 割 实例 


在 分 析 图 像 时 , 我 们 的 兴趣 只 会 被 图 像 中 的 某 些 实例 吸引 。 因 此 , 不 得 不 从 图 像 的 其 余部 分 
分 割 出 这 些 实例 。 将 所 需 信息 与 其 他 信息 分 离 的 过 程 泛 称 为 分 割 实例 。 在 此 过 程 中 , 首先 输入 图 
像 ， 然 后 对 边界 框 与 目标 进行 定位 ， 最 后 为 每 个 类 预测 一 个 像素 级 的 掩 码 。 计 算 每 个 目标 的 像素 
级 准确 度 。 有 几 种 分 割 实 例 的 算法 ， 最 近 的 一 种 算法 是 由 He 等 人 提出 的 Mask RCNN 算法 。 图 
5-22 描绘 了 Mask R-CNN 的 架构 。 












































* 经 He 等 人 许可 转载 
5-22 
该 体系 架构 看 起 来 与 R-CNN 类 似 ， 只 是 增加 了 分 割 。 这 是 一 个 多 级 的 网 络 ， 提 供 端 到 端的 
训练 。 它 的 区 域 建议 是 习 得 的 。 该 网 络 分 为 两 部 分 ， 一 部 分 用 于 检测 ， 另 一 部 分 用 于 分 类 评分 。 
分 割 结果 非常 好 ， 对 象 被 准确 检测 并 相应 地 进行 分 割 ， 如 图 5-23 所 示 。 
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* 经 He 等 人 许可 转载 


5-23 
同一 个 网 络 也 可 以 预测 人 的 姿态 。 分 割 和 检测 任务 是 并 行 处 理 的 。 





5.7 小 结 
在 本 章 中 , 我 们 了 解 了 各 种 分 割 算 法 ,看 到 了 用 于 基准 测试 的 数据 集 和 度量 指标 ,应 用 所 学 
的 技术 来 分 割 卫星 图 像 和 医学 图 像 ， 讨 论 了 针对 实例 分 割 的 Mask R-CNN 算法 。 


在 下 一 章 中 , 我 们 将 学 习 相 似 性 学 习 以 及 可 用 于 相似 性 学 习 的 模型 架构 。 相 似 性 学 习 模 型 用 
于 学 习 两 幅 图 像 之 间 的 比较 机 制 ， 适 用 于 人 脸 识别 等 应 用 。 
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相似 性 学 习 








在 本 章 中 ,我 们 将 学 习 相似 性 学 习 ， 以 及 其 中 使 用 的 各 种 损失 函数 。 当 每 个 类 的 数据 集 较 小 
时 ， 相 似 性 学 习 会 很 有 用 。 我 们 将 了 解 可 用 于 人 脸 分 析 的 不 同 数据 集 ， 并 构建 人 脸 识别 和 特征 点 
检测 的 模型 。 

本 章 涉及 以 下 主题 ， 
口 相似 性 学 习 的 不 同 算法 
D 用 于 相似 性 学 习 的 各 种 损失 函数 ; 
D 可 以 使 用 这 些 模型 的 各 种 场景 
口 人 脸 识别 的 完整 过 程 。 


6.1 相似 性 学 习 算 法 


相似 性 学 习 是 训练 一 个 度量 指标 以 计算 两 个 实体 之 间 相 似 程度 的 过 程 。 这 也 可 以 被 称 为 度量 
学 习 ( metric learning )， 因 为 相似 度 是 习 得 的 。 度 量 可 以 是 欧 儿 里 得 距离 、 余 弦 距 离 或 其 他 自 定 
义 距离 函数 。 实体 可 以 是 任何 数据 , 如 图 像 、 视 频 、 文 本 或 表格 。 计 算 度量 需要 图 像 的 向 量 表示 。 
这 种 表示 可 以 是 由 CNN 计算 的 特征 , 如 第 3 章 所 述 。 习 得 目标 分 类 的 CNN 可 以 用 作 计 算 度量 的 
向 量 。 用 于 图 像 分 类 获得 的 特征 向 量 不 是 目前 应 用 的 最 佳 表示 。 在 相似 性 学 习 中 , 我 们 找到 了 产 
生 用 于 相似 性 学 习 任 务 训练 特征 的 CNN。 这 里 给 出 相似 性 学 习 的 一 些 应 用 : 


口 验证 人 脸 的 生物 特征 ， 比 较 两 张 脸 ; 
口 对 现实 世界 的 物体 进行 可 视 化 搜索 ， 以 查找 类 似 的 线 上 产品 ; 
口 对 某 些 属性 类 似 产 品 的 视觉 推荐 。 


本 章 将 详细 介绍 人 脸 验证 。 让 我 们 从 可 用 于 相似 性 学 习 的 算法 开始 。 











































































































6.1.1 迹 生 网 络 


顾名思义 ， 挛 生 网 络 〈siamese network ) 就 是 为 区 分 两 个 输入 所 训练 的 神经 网 络 模型 。 一 个 
挛 生 网 络 可 以 通过 两 个 编码 器 训练 一 个 CNN 而 产生 一 个 通 入 (embedding )。 每 个 编码 器 都 送 入 
































116 第 6 章 ”相似 性 学 习 

















一 幅 从 一 个 正 对 或 一 个 负 对 中 提供 的 图 像 。 挛 生 网 络 比 其 他 深度 学 习 算 法 需要 的 数据 更 少 。 最 初 
引入 杰 生 网 络 是 为 了 比较 签名 。 图 6-1 显示 了 一 个 挛 生 网 络 ， 权 重 在 网 络 之 间 共 享 。 




















| 输 和 2 | 卷 积 李 生 网 络 


级 联 全 连接 Softmax 


























图 6-1 


挛 生 网 络 的 另 一 个 用 途 是 单 样本 学 习 (one-short learning )。 单 样本 学 习 就 是 学 习 只 有 一 个 样 
本 的 技巧 。 在 这 种 情况 下 ， 只 显示 一 幅 图 像 ， 就 可 以 判断 它 和 样本 是 否 相 似 。 对 于 大 多 数 相 似 性 
学 习 任 务 来 说 ， 需 要 一 对 正 负 对 来 训练 。 假 设 这 些 数据 集 是 欧 几 里 得 距离 , 则 可 以 使 用 用 于 分 类 
任务 的 任何 数据 集 来 形成 这 些 数 据 集 。 这 些 算法 和 前 几 章 算法 的 主要 区 别 在 于 : 编码 器 试图 把 它 
们 一 个 个 地 区 分 开 。 


对 比 损失 


对 比 损失 ( contrastive loss ) 通过 相似 性 区 分 图 像 。 使 用 相似 性 指标 来 比较 特征 或 潜在 层 ， 
并 用 一 个 相似 度 评分 的 目标 进行 训练 。 在 正 对 的 情况 下 ， 相 应 的 目标 将 为 0， 因 为 两 个 输入 是 相 
同 的 。 对 于 负 对 ， 在 余弦 距离 或 正则 化 欧 几 里 得 距离 的 情况 下 ， 湾 在 对 之 间 的 距离 最 大 为 0。 损 
失 可 以 通过 contrastive_loss 来 定义 ， 如 下 所 示 : 


def contrastive loss(model_1, model 2, label, margin=0.1): 
distance = tf.reduce_ suml(tf.square(model 1 - model 2), 1) 
loss = label * tf.squarel( 
tf.maximum(0., margin - tf.saqrt(distance))) + (1 - label) * 
distance 
loss = 0.5 * tf.reduce mean (loss) 
return loss 


比较 两 个 模型 的 距离 并 计算 损失 。 现 在 ， 我 们 将 定义 和 训练 一 个 挛 生 网 络 。 对 于 挛 生 网 络 ， 
我 们 需要 两 个 相同 的 模型 。 接 下 来 ,让 我 们 为 具有 给 定 输入 的 简单 CNN 定义 一 个 函数 , 如 下 所 示 : 


def get_model (input_) : 
input_reshape = tf.reshape(input_, [-1, 28, 28, 1],， 
name='input_reshape') 
convolution layer_1 = convolution layer (input_reshape, 64) 
pooling_layer_1 = pooling_ layer (convolution layer_1) 
convolution layer_ 2 = convolution _ layer (pooling_ layer_1, 128) 
pooling_layer_ 2 = pooling_ layer (convolution layer_2) 
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flattened pool = tf.reshape(pooling_ layer 2，[-1，5 * 5 * 128]， 

name='flattened pool') 
dense_layer_bottleneck = dense_ layer (flattened pool, 1024) 
return dense_layer_bottleneck 


定义 的 模型 将 被 使 用 两 次 , 以 定义 挛 生 网 络 所 需 的 编码 器 。 接 下 来 , 定义 两 个 模型 的 占 位 符 。 
每 一 对 输入 的 相似 性 也 作为 输入 送 入 。 定义 的 模型 是 相同 的 。 模 型 也 可 以 定义 为 权重 共享 。 这 里 
定义 了 左 侧 和 右 侧 的 两 个 模型 : 

left_input = tf.placeholder (tf.float32, shape=[None, input_sizel]) 

right_input = tf.placeholder (tf.float32, shape=[None, input_sizel]) 

y_input = tf.placeholder (tf.float32, shape=[None, no_classes]) 


left_bottleneck = get model (left_input) 
right_bottleneck = get_model (right_input) 


瓶颈 层 取 自 模 型 并 级 联 起 来 。 这 对 相似 性 学 习 问题 至 关 重要 。 可 以 创建 任意 数量 的 模型 ， 最 
后 的 几 层 可 以 级 联 起 来 ， 如 下 所 示 : 


dense_layer_ bottleneck = tf.concat([left bottleneck, right bottleneck], 1) 


接 下 来 ， 添 加 一 个 丢弃 层 ， 并 在 级 联 层 中 计算 出 logits。 该 过 程 与 其 他 任何 网 络 都 是 类 似 
的 ， 如 下 所 示 : 


dropout_bool = tf.placeholder (tf.bool) 

dropout_layer = tf.layers.dropout\( 
inputs=dense_layer_bottleneck, 
rate=0.4, 
training=dropout_bool 




















) 


logits = dense_ layer (dropout_layer, no_classes) 





with tf.name_ scope('loss'): 

softmax_cross_entropy = tf.nn.softmax_cross_entropy_with logits( 
labels=y_input, logits=logits) 

oss_operation = tf.reduce mean(softmax_cross_entropy, name='loss') 
tf.summary.scalar('loss', loss_operation) 





ES 


with tf.name_ scope('optimiser'): 
optimiser = tf.train.AdamOptimizer() .minimize (loss_operation) 





with tf.name_ scope('accuracy'): 
with tf.name_ scope('correct prediction'): 
predictions = tf.argmax(logits, 1) 
correct_predictions = tf.equal (predictions, tf.argmax(y_input, 1)) 
with tf.name_ scope('accuracy'): 
accuracy_operation = tf.reduce meanl 
tf.cast (correct_predictions, tf.float32)) 
tf.summary.scalar('accuracy', accuracy_operation) 


session = tf.Session() 
session.run(tf.global variables_initializer()) 


merged_summary_operation = tf.summary.merge_all() 
train_summary_writer = tf.summary.FileWriter('/tmp/train', session.graph) 


A 
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test_summary_writer tf.summary.FileWriter('/tmp/test') 


test_images, mist_data.test.images, 


数据 必须 单独 送 到 左右 两 个 模型 ， 如 下 所 示 : 


for batch no in range(total batches): 
mnist_batch mnist_ data.train.next_batch(batch size) 
train_images, train labels mnist_ batch[0], mnist_batch[1] 
merged_summary session.run( [optimiser， 
feed_ dict={ 


test_labels 


Ea 


left_input: train images, 
right_input: train images, 
y_input: train labels, 
dropout_bool: True 
} 
train_ summary_writer.add_summary (merged_summary, 
if batch no % 10 == 0: 
mergeqd_summary, _ 


batch_no) 


加 


session.run([merged_ summary_operatio 
accuracy_operation], 


left_input: test_images, 
right_input: test_images, 
y_input: test_labels, 
dropout_bool: False 

} 


test_summary_writer.add_ summary (merged_summary, 


我 们 已 经 学 习 了 如 何 定义 一 个 挛 生 网 络 。 定 义 两 个 编码 器 ， 并 将 这 些 隐 


batch_no) 

















n, 


23 
< 


mnist_data.test.labels 


merged_summary_operation], 


feed_ dict={ 


间 级 联 起 来 以 形成 


训练 损失 。 左 侧 和 右 侧 模型 分 别 获得 数据 馈送 。 接 下 来 将 介绍 如 何在 单个 网 络 中 执行 相似 性 学 习 。 


6.1.2 ”FaceNet 模型 


Schro 任 等 人 提出 了 FaceNet 模型 来 解决 人 脸 验 说 
像 转 换 为 虞 人 和 人 (embedding )。 能 人 可 用 于 比较 不 同人 脸 的 相似 度 








具 


冯 




















口 人 脸 验 证 ( face verification ): 考量 两 个 脸 部 ， 决 定 它们 是 否 相 似 。 








照片 聚集 起 来 一 样 。K 均 值 等 聚 类 算法 可 用 于 对 人 脸 进行 聚 类 。 





De 


F 问 题 。 它 学 习 一 个 深度 CNN， 然 后 将 人 脸 图 
体 可 以 通过 以 下 三 种 方式 使 用 。 





可 以 
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过 计算 距离 度 


口 人 脸 识 别 ( face recognition ): 用 名 称 标注 人 脸 的 分 类 问题 。 舱 入 向 量 可 用 于 训练 最 终 标 签 。 
口 人 脸 聚 类 ( face clustering ): 将 类 似 的 人 脸 聚 合 在 一 起 ， 就 像 照片 应 用 程序 将 同一 个 人 的 














6-2 显示 了 FaceNet 架构 。 








批 次 











* 经 Schroff 等 人 许可 转载 





图 6-2 
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FaceNet 需要 一 批 脸 部 图 像 并 训练 它们 。 批 次 中 会 有 一 些 正 对 。 在 计算 损失 时 ， 考 虑 正 对 和 
最 接近 的 儿 个 负 对 。 挖 据 选 择 性 配对 可 实现 平滑 训练 。 如 果 所 有 的 负 样 本 一 直 被 排除 在 外 ,那么 
训练 并 不 稳定 。 比 较 三 个 数据 点 称 为 三 元 组 损失 ( triplet loss )。 在 计算 损失 时 ， 图 像 的 一 个 正 样 
本 对 匹配 一 个 负 样 本 对 。 负 样本 对 只 会 以 一 定 的 范围 被 推 开 。 这 里 详细 解释 一 下 三 元 组 损失 。 


三 元 组 损失 


三 元 组 损失 学 习 图 像 的 评分 向 量 。 人 脸 描述 子 的 评分 向 量 可 以 用 来 在 欧 几 里 得 空间 中 验证 人 
脸 。 在 学 习 投 影 的 意义 上 , 三 元 组 损失 可 以 区 分 输入 ,这 与 度量 学 习 相 似 。 这 些 投影 、 描 述 子 或 
评分 向 量 是 一 种 简洁 的 表示 形式 ， 因 此 可 以 被 视 为 一 种 降 维 技术 。 三 元 组 包括 锚 点 、 正 样本 和 负 
样本 。 锚 点 可 以 是 任何 样本 , 正 样本 是 同一 个 人 的 图 像 ， 负 样本 图 像 可 能 来 自 另 一 个 人 。 显 而 易 
见 ， 对 于 一 个 给 定 的 锚 点 会 有 很 多 负 样 本 。 通 过 选择 当前 靠近 锚 点 的 负 样 本 ， 编 码 器 难以 辨别 人 
脸 ， 从 而 使 其 更 好 地 学 习 。 这 个 过 程 被 称 为 难 分 样本 挖掘 (hard negative mining )。 相 近 的 负 样 本 
可 以 通过 设置 一 个 欧 几 里 得 空间 的 阔 值 来 获得 。 图 6-3 显示 了 三 元 组 损失 模型 。 























































































































负 样 本 
铺 点 学 习 © 
eo @ 一 一 二 负 样本 
全 销 点 “一 人 
正 样本 正 样本 
* 经 Schroff 等 人 许可 转载 
图 6-3 





TensorFlow 中 的 损失 计算 如 下 所 示 : 


def triplet_loss(anchor_face, positive face, negative face, margin): 
def get_distance(x, y): 
return tf.reduce_suml(tf.square(tf.subtract (x, y)), 1) 


positive_ distance = get_distance(anchor_face, positive face) 

negative_ distance = get_distance(anchor_face, negative_face) 

total_distance = tf.add(tf.subtract (positive distance, 
negative _ distance), margin) 

return tf.reduce mean(tf.maximum(total distance, 0.0), 0) 


三 元 组 的 挖掘 是 一 项 困难 的 任务 。 每 个 点 都 必须 与 其 他 点 进行 比较 才能 获得 正确 的 锚 点 和 正 
对 。 这 里 显示 了 三 元 组 的 挖掘 过 程 : 


def mine_triplets(anchor，targdets，Dnegative_samples) : 
distances = cdist (anchor, targets, 'cosine') 
distances = cdist (anchor, targets, 'cosine').tolist!() 
QnO_duplicateqd = [ 
[target_index for target_index, dist in enumerate(OnQ dist) if dist 
== QnQ_ dist[lquery_index]] 
for query_index, QnQ dist in enumerate(distances)] 
for i, QnT dist in enumerate(QnT dists): 
for j in QnO_ _ duplicated[il]: 
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QnT dist.itemset (j, np.inf) 


QnT _ dists topk = QnT dists.argsort (axis=1)[:, :negative_samples] 

top_k_index = np.array ([np.insert (QnT dist, 0, i) for i, QnT dist in 
enumerate (QnT_ dists_topk)]) 

return top_k_ index 


因为 距离 计算 发 生 在 CPU 中 ， 这 可 能 会 使 GPU 机 器 上 的 训练 速度 变 慢 。FaceNet 模型 是 一 
种 训练 人 脸 相 似 度 模型 的 先进 的 方法 。 


6.1.3 ”DeepNet 模型 


DeepNet 模型 用 于 学 习 人 脸 验 证 任务 的 面部 府 入 ， 如 FaceNet。 这 改进 了 上 一 节 讨 论 的 FaceNet 
方法 。DeepNet 需要 同一 张 脸 的 多 个 裁剪 ， 并 通过 多 个 编码 需 获 得 更 好 的 认 入 。 这 实现 了 比 
FaceNet 更 好 的 准确 性 ， 但 需要 更 多 时 间 进 行 处 理 。 面 部 裁剪 在 同一 区 域 制作 并 通过 各 自 的 编码 
人 妖 。 然 后 将 所 有 层级 联 起 来 进行 训练 ， 以 对 抗 三 元 组 损失 。 





























6.1.4 DeepRank 模型 


Wang 等 人 提出 了 DeepRank 模型 ， 用 于 图 像 的 相似 性 排序 。 图 像 通过 不 同 的 模型 传递 ， 如 
图 6-4 所 示 。 




















图 像 
* 经 Wang 等 人 许可 转载 
图 6-4 


这 里 也 计算 了 三 元 组 损失 , 反 向 传播 进行 得 更 顺利 。 然 后 ,图像 可 以 转换 为 线性 内 入 进行 排 
， 如 图 6-5 所 示 。 
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* 经 Wang 等 人 许可 转载 


该 算法 对 于 排序 非常 有 用 。 


6.1.5 ”视觉 推荐 系统 


视觉 推荐 系统 非常 适合 获取 一 个 给 定 图 像 的 推荐 。 推 荐 模型 提供 具有 相似 属性 的 图 像 。 在 
Shankar 等 人 提出 的 模型 (图 6-6 ) 中 ， 可 以 学 习 相 似 图 像 的 舱 入 ， 而 且 它 还 提供 了 视觉 推荐 。 














Hinge Loss 
max{0, g + Da, p) ~ D(a, n) 
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VisNet 


(a) 深度 排序 架构 (b) VisNet 架 构 
* 经 Shankar 等 人 许可 转载 











图 6-6 
这 些 是 用 于 相似 性 学 习 的 一 些 算法 。 在 下 一 节 中 ， 我 们 会 学 习 如 何 将 这 些 技 术 应 用 于 人 脸 。 
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6.2 人 脸 分 析 
可 以 使 用 计算 机 视觉 以 多 种 方式 分 析 人 脸 。 这 里 列 出 几 个 需要 考虑 的 因素 。 


口 人 脸 检 测 : 找到 人 脸 位 置 的 边界 框 。 

口 人 脸 关键 点 检测 : 查找 人 脸 特征 的 空间 点 ， 如 鼻子 、 嘴 巴 等 。 
口 人 脸 对 齐 : 将 人 脸 转 换 为 正面 进行 进一步 分 析 。 

口 属性 识别 : 查找 属性 ， 如 性 别 、 笑 容 等 。 

口 情绪 分 析 : 分 析 人 的 情绪 。 

口 人 脸 验 证 : 查找 两 幅 图 像 是 否 属于 同一 个 人 。 

口 人 脸 识 别 : 找到 人 脸 的 身份 。 

口 人 脸 聚 类 : 将 同一 个 人 的 面部 聚 类 。 


在 下 面 的 章节 中 ， 我 们 将 详细 了 解 这 些 任务 的 数据 集 和 实现 。 
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6.2.1 人 脸 检 测 


人 脸 检测 与 目标 检测 (参见 第 4 章 ) 类 似 。 必 须 从 图 像 中 检测 人 脸 的 位 置 。FDDB ( face 
detection data set and benchmark ) 数据 集 包含 2845 幅 图 像 ，5171 张 人 脸 。 另 一 个 名 为 wider face 
的 数据 集 包 含 32 203 幅 图 像 和 393 703 张 人 脸 。 图 6-7 是 来 自 wider face 数据 集 的 图 像 示 例 。 
































化 妆 











* 经 Yang 等 人 许可 转载 





图 6-7 


该 数据 集中 人 脸 的 尺寸 、 姿 态 、 有 遮挡、 表情、 化 妆 和 照明 都 有 显著 的 变化 。 另 一 个 名 为 多 属 
性 标记 的 人 脸 (multi-attribute labelled face，MALF ) 的 数据 集 包 含 5250 幅 图 像 和 11 931 张 人 脸 。 
目标 检测 中 的 技术 同样 也 可 以 应 用 于 人 脸 检 测 。 
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6.2.2 ”人 脸 特 征 点 和 属性 


人 脸 特 征 点 ( face landmark ) 是 人 脸 上 的 某 些 空间 点 。 这 些 空间 点 对 应 各 种 面部 特征 的 位 置 ， 
例如 眼睛 、 眉 毛 、 鼻 子 、 嘴 巴 和 下 巴 。 根 据 标 定 的 不 同 ， 点 数 可 能 从 5 到 78 个 不 等 。 人 脸 特 征 
点 也 被 称 为 基准 点 ， 面 部 关键 点 或 人 脸 姿 态 。 人 脸 特 征 点 的 应 用 如 下 : 

口 对 齐 脸 部 以 获得 更 好 的 人 脸 验 证 或 人 脸 识别 ; 
口 追踪 视频 中 的 人 脸 ; 

口 测量 面部 表情 或 情绪 ; 

口 有 助 于 诊断 身体 状况 。 

接 下 来 介绍 一 些 具有 基准 点 标定 的 数据 库 。 

1. 多 任务 面部 特征 点 (MTFL) 数据 集 

MTFL 数据 集 由 Zhang 等 人 提出 。 该 数据 集注 明了 5 个 面部 特征 点 以 及 性 别 、 笑 容 、 有 无 眼 
镜 和 头 部 姿态 标定 。 数 据 库 中 有 12 995 张 人 脸 。 图 6-8 是 MTFL 中 的 图 像 示 例 。 
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国 。 头 部 姿态 估计 (0°,+30°, +60°) G/NG = 有 /无 眼镜 
国 SANS = 有 /无 笑容 国 wF = 男 廊 
* 经 Zhang 等 人 许可 转载 
图 6-8 
在 年 龄 、 照 明 、 情 绪 等 方面 ， 脸 上 有 很 多 变化 。 头 部 姿态 是 人 脸 的 朝向 ， 用 角度 表示 ; 有 无 





眼镜 、 笑 容 、 人 性别 属 性 等 都 使 用 二 进 制 标签 进行 注释 。 
2. Kaggle 关键 点 数据 集 


Kaggle 关键 点 数据 集 标定 了 15 个 面部 特征 点 。 数 据 集中 有 8832 幅 图 像 ， 图 像 大 小 为 96 像 
素 x 96 像素 。 
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3. 多 属性 面部 特征 点 (MAFL)〉 数据 集 


MAFL 数据 集 由 Zhang 等 人 提出 。 该 数据 集 标定 了 5 个 面部 特征 点 和 40 个 不 同 的 面部 属性 。 
数据 库 中 有 2 万 张 人 脸 。 图 6-9 是 MAFL 中 的 图 像 示 例 。 























眼镜 














* 经 Liu 等 人 许可 转载 
图 6-9 


标定 的 属性 包括 尖 鼻 子 、 刘 海 、 妆 须 、 波 浪 发 、 戴 帽子 等 。 这 些 图 像 也 包含 在 CelebA 数据 
集中 ， 稍 后 将 对 其 进行 详细 讨论 。 


4. 学 习 面 部 关键 点 
正如 前 面 所 讨论 的 ， 在 计算 面部 关键 点 时 有 几 个 参数 需要 定义 ， 如 下 所 示 : 


image_size = 40 
no_landmark = 10 
no_gender_classes = 2 
no_smile_ classes = 2 
no_glasses_classes = 2 
no_headpose_classes = 5 
batch_ size = 100 
total_batches = 300 
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接 下 来 ， 为 各 种 输入 提供 几 个 占 位 符 : 


image_input = tf.placeholder (tf.float32, shape=[None, image_size, 
image_sizel]) 

landmark_input = tf.placeholder (tf.float32, shape=[None, no_landmark]) 
gender_input = tf.placeholder (tf.float32, shape=[None, no_gender classes]) 
smile_input = tf.placeholder (tf.float32, shape=[None, no_smile classes]) 
glasses_input = tf.placeholder (tf.float32, shape=[None, 
no_glasses_classes]) 
headpose_input = tf.placeholder (tf.float32, shape=[None, 
no_headpose_classes]) 


接着 用 四 个 卷 积 层 构造 主 模型 ， 如 下 所 示 : 


image_input_reshape = tf.reshape(image_input, [-1, image_ size, image_ size, 1], 
name='input_reshape') 











convolution layer_1 = convolution layer (image_input_reshape, 16) 
pooling_layer_1 = pooling_ layer (convolution layer_1) 

convolution layer_2 = convolution_ layer (pooling_layer_1, 48) 
pooling_layer_ 2 = pooling layer (convolution layer_ 2) 

convolution layer_3 = convolution layer (pooling layer_ 2, 64) 
pooling_layer_3 = pooling layer (convolution layer_ 3) 





convolution layer_4 = convolution layer (pooling_ layer_3, 64) 
flattened pool = tf.reshape(convolution layer_4, [-1, 5 * 5 * 64]， 
name='flattened pool') 

dense_layer_bottleneck = dense_layer (flattened pool, 1024) 
dropout_bool = tf.placeholder (tf.bool) 
dropout_layer = tf.layers.dropout\( 

inputs=dense_layer_bottleneck, 

rate=0.4, 

training=dropout_bool 








) 


接 下 来 为 所 有 不 同 的 任务 创建 一 个 1ogits 分 支 ， 如 下 所 示 : 


landmark_logits = dense_layer (dropout_layer, 10) 
smile_ logits = dense_ layer (dropout_layer, 2) 
glass_logits = dense_layer (dropout_layer, 2) 
gender_logits = dense_layer (dropout_layer, 2) 
headpose_logits = dense _ layer (dropout_layer, 5) 


单独 为 所 有 面部 特征 计算 损失 ， 如 下 所 示 : 


landmark_loss = 0.5 * tf.xredquce_mean( 
tf.square (landmark_input, landmark_logits)) 





gender_loss = tf.reduce meanl 
tf.nn.softmax_cross_entropy_with logits ( 
labels=gender_input, logits=gender_logits)) 





smile_ loss = tf.reduce mean( 
tf.nn.softmax_cross_entropy_with logits ( 
labels=smile_ input, logits=smile_ logits)) 
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glass_loss = tf.reduce meanl( 
tf.nn.softmax_cross_entropy_with logits( 
labels=glasses_input, logits=glass_logits)) 





headpose_loss = tf.reduce mean( 
tf.nn.softmax_cross_entropy_with logits( 
labels=headpose_input, logits=headpose_logits)) 





loss_operation = landmark_loss + gender_ loss + 
smile_ loss + glass_loss + headpose_loss 


现在 ， 我 们 将 初始 化 优化 器 并 开始 训练 ， 如 下 所 示 : 


optimiser = tf.train.AdamOptimizer() .minimize(loss_operation) 
session = tf.Session() 
session.run(tf.initialize all_ _ variables()) 

fiducial_test_data = fiducial_ data.test 


for batch no in range(total batches): 

fiducial_ data batch = fiducial_ data.train.next_batch(batch size) 

loss, _landmark_ loss, _ = session.run( 
[loss_operation, landmark_ loss, optimiser], 
feed_ dict={ 
image_input: fiducial_ data batch.images, 
langdmark_input: fiducial_ data batch.landmarks, 
gender_input: fiducial_ data batch.gender, 
smile_ input: fiducial_ data batch.smile, 
glasses_input: fiducial_ data batch.glasses, 
headpose_input: fiducial_ data batch.pose, 
dropout_bool: True 











中 
LF".bateh no BO 三 三 92 
1oss，_ landmark_ loss，_ = session.run( 
[loss_operation, landmark_loss], 
feed_ dict={ 
image_input: fiducial_ test_ data.images, 
landmark_input: fiducial test_data.landmarks, 
gender_input: fiducial_ test_data.gender, 
smile_ input: fiducial test_ data.smile, 
glasses_input: fiducial test_ data.glasses, 
headpose_input: fiducial_ test_data.pose, 
dropout_bool: False 


}) 


这 个 过 程 可 以 用 来 检测 面部 特征 以 及 关键 点 。 


6.2.3 ”人 脸 识别 


人 脸 识 别 (face recognition ) 或 面部 识别 ( facial recognition ) 是 从 数字 图 像 或 视频 中 识别 特 
定 的 人 的 过 程 。 我 们 将 在 下 面 的 章节 中 了 解 可 用 于 人 脸 识别 的 数据 集 。 
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1. 野外 标记 的 人 脸 (LFW) 数据 集 

LFW 数据 集 包 含 13 233 幅 人 脸 图 像 ， 其 中 包含 5749 个 独立 的 人 , 被 视 为 评估 人 脸 验 证 的 标 
准 数据 集 。 可 以 用 准确 率 度量 指标 来 评估 算法 。 

2. YouTube 人 脸 数 据 集 


YouTube 人 脸 数 据 集 包含 3425 个 视频 片段 ， 其 中 包含 1595 个 独立 的 人 。 这 些 视频 来 自 
YouTube ， 数 据 集 中 每 人 至 少 有 两 个 视频 。 该 数据 集 被 视 为 视频 中 的 人 脸 验 证 的 标准 数据 集 。 


3. CelebFaces 属性 数据 集 (CelebA) 


CelebA 数据 集 标定 了 人 的 身份 以 及 5 个 面部 特征 点 和 40 个 属性 。 数据 库 中 有 10 177 个 独立 
的 人 ，202 599 幅 人 脸 图 像 。 它 是 一 个 大 型 数据 集 ， 可 用 于 人 脸 验 证 、 检 测 、 特 征 点 和 属性 识别 
问题 。 这 些 图 像 具 有 不 同人 脸 和 不 同 注释 。 


4. CASIA 网 络 人 脸 数据 库 


CASIA 数据 集 总 共 标 定 了 10 575 个 独立 的 人 和 494414 幅 图 像 。 这 是 用 于 人 脸 验 证 和 人 脸 识 
别 问 题 的 第 二 大 公共 数据 集 。 


5. VGGFace2 数据 集 


Cao 等 人 提出 的 VGGFace2 数据 集 标注 有 9131 个 独立 的 人 , 313 万 幅 图 像 。 图像 标 定 了 不 同 
的 年 龄 、 种 族 、 姿 态 ， 职 业 和 照明 。 这 是 可 用 于 人 脸 验 证 的 最 大 数据 集 。 


6-10 是 数据 集中 图 像 的 示例 。 




































































* 经 Cao 等 人 许可 转载 





图 。6-10 


每 个 独立 的 人 的 最 小 、 平 均 和 最 大 图 像 数量 分 别 为 87 幅 、362.6 幅 和 843 幅 。 
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6. 计算 人 脸 之 间 的 相似 度 
人 脸 相 似 度 的 计算 是 一 个 多 步骤 




















的 问题 。 


点 对 齐 ， 对 齐 的 人 脸 就 可 以 用 于 比较 了 。 正 如 前 面 提 到 的 ， 人 脸 检 测 类 似 于 目标 检测 。 


必须 检测 人 脸 ， 然 后 找到 基准 点 。 人 脸 可 以 用 基准 


因此 , 为 





了 找到 人 脸 之 间 的 相似 度 ， 我 们 将 首先 导入 所 需 的 库 和 facenet 库 ， 如 下 所 示 : 


from scipy import misc 

import tensorflow as tf 

import numpy as np 

import os 

import facenet 

print facenet 

from facenet import load model, 
import align.detect_face 


图 像 的 加 载 和 对 齐 如 下 所 示 : 


def load_ and align data(image paths, 
gpu_memory_fraction=1.0): 


image_size=160, 


prewhiten 


margin=44, 


minsize = 20 

threshold = [0.6, 0.7, 0.7] 

factor’ Es QR09 

print ('Creating networks and loading parameters') 


.as_default (): 


with tf.Graph() 
gpu_options 


tf.GPUOptions (per_process_gpu memory_fraction=gpu_memory_fraction) 





sess 
log_device placement=False)) 
with sess.as_default (): 





tf.Session(config=tf.ConfigProto(gpu_options=gpu_options, 


pnet, rnet, onet = align.detect_face.create mtcnn(sess, None) 
nrof_samples = len(image paths) 
img_list = [None] * nrof_samples 
for i in range (nrof_samples): 
img = misc.imread(os.path.expanduser (image paths[i]), mode='RGB') 
img_size = np.asarray (img.shape)[0:2] 
bounding_boxes, _ = align.detect_ face.detect face(img, minsize, 
pnet, rnet, onet, threshold, factor) 
det = np.squeeze (bounding_boxes[0, 0:4]) 
bb = np.zeros(4, dtype=np.int32) 
bb[0] = np.maximum(det[0] - margin / 2, 0) 
bb[1] = np.maximum(det[1] - margin / 2, 0) 
bb[2] = np.minimum(det[2] + margin / 2, img_size[1]) 
basl SS td ee + margin / 2, img_size[0]) 
cropped = img[bb[1] :bb[3]; bb[0] :bb[2], :] 
aligned = misc. i (image_size, image_size), 
interp='bilinear') 
prewhitened = prewhiten(aligned) 
img_list[i] = prewhitened 
images = np.stack (img_list) 


return images 
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接 下 来 处 理 图 像 路 径 以 获取 脱 入 。 这 里 给 出 了 相同 的 代码 : 


def get_face_ embeddings (image_paths, model='/20170512-110547/'): 
images = load_and align data (image paths) 
with tf.Graph() .as_default (): 
with tf.Session() as sess: 
load_model (model) 
images_placeholder = 
tf.get_default_graph() .get_tensor by_name ("input:0") 
embeddings = 
tf.get_default_graph() .get_tensor_by_name ("embeddings:0") 
phase_ train placeholder = 
tf.get_default_graph() .get_ tensor by_name("phase_ train:0") 
feed _ dict = {images_placeholder: images, 
phase_train placeholder: False} 
emb = sess.run(embeddings, feed_ dict=feed dict) 


return emb 


现在 我 们 将 使 用 以 下 代码 计算 虞 入 之 间 的 距离 : 


def compute distance(embedding 1, embedding_ 2): 

dist = np.sgqrt (np.sum(np.square (np.subtract (embedding_1, 
embedding_2)))) 

return dist 


该 函数 将 计算 能 入 之 间 的 欧 几 里 得 距离 。 
7. 找到 最 佳 的 阐 值 
使 用 上 述 函 数 ， 可 以 计算 该 系统 的 准确 度 。 以 下 代码 可 用 于 计算 最 佳 阔 值 : 


import sys 

import argparse 

import os 

import re 

from sklearn.metrics import classification report 
from sklearn.metrics import accuracy_score 


现在 ,使 用 以 下 代码 从 文件 夹 中 获取 图 像 路 径 : 


def get_image paths (image_ directory): 

image_names = sorted(os.listdir(image_ directory)) 

image_paths = [os.path.join(image directory, image name) for image_name 
in image_names] 

return image paths 


图 像 的 距离 是 在 传递 钥 入 时 获得 的 ， 如 下 所 示 : 


def get_labels_distances (image paths, embeddings): 
target_labels, distances = [], [] 
for image path 1, embedding_1 in zip(image_ paths, embeddings): 
for image_ path 2, embedding 2 in zip(image_ paths, embeddings): 
if (re.sub(r'\d+', '', image path 1)).lower() == 
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(re.sub(r'\d+', '', image_ path 2)).lower(): 
target_labels.append(1) 
else: 
target_labels.append(0) 
distances.append (compute_ distance(embedding 1, embedding 2)) # 
Replace distance metric here 
return target_labels, distances 


浆 值 变化 如 下 所 示 ， 并 且 相应 地 打印 各 种 指标 : 


def Pint_metrics(targdet_labels，dqistances) : 
accuracies = [] 
for threshold in range(50, 150, 1): 
threshold = threshold/100. 
predicted labels = [1 if dist <= threshold else 0 for dist in 
distances] 
print ("Threshold", threshold) 
print (classification report (target_labels, predicted labels, 





target_names=['Different', 'Same'])) 
accuracy = accuracy_score(target_labels, predictedqd labels) 
print ('Accuracy: ', accuracy) 


accuracies.append (accuracy) 
print (max (accuracies)) 


现在 ,借助 以 下 代码 将 图 像 路 径 传 递 给 虞 入 : 


def main (args): 

image_paths = get_image paths (args.image_ directory) 

embeddings = get_face embeddings (image paths) # Replace your embedding 
calculation here 

target_labels, distances = get_labels distances (image_paths, 
embeddings) 

print_metrics(target_labels, distances) 


最 后 ， 图 像 的 目录 作为 主要 参数 传递 给 这 些 方法 ， 如 下 所 示 : 


生生 name = aine 
parser = argparse.ArgumentParser() 
parser.add argument ('image directory', type=str, help='Directory 
containing the images to be compared') 
parsed_arguments = parser.parse args (sys.argv[1:]) 
main(parsed_ arguments) 


在 这 个 示例 中 ， 我 们 采用 了 一 个 预 训练 模型 ， 并 用 它 来 构造 一 个 人 上 脸 验证 方法 。 











6.2.4 人 脸 聚 类 


人 脸 限 类 是 将 相同 人 物 的 图 像 分 组 在 一 起 以 进行 相册 处 理 的 过 程 。 可 以 提取 面部 的 角 入 , 并 
使 用 诸如 大 均值 聚 类 这 样 的 算法 将 同一 个 人 的 面部 聚集 在 一 起 。TensorFlow 为 均值 算法 提供 了 
一 个 名 为 tcontrib.learn.KmeansClustering 的 API。 大 均值 算法 将 数据 点 分 组 在 一 起 。 借 助 这 种 算 
法 ,我们 可 以 提取 相册 的 谍 人 并 且 一 起 找到 个 体 的 脸 部 ， 换 句 话 说， 可 以 聚集 在 一 起 。 
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6.3 ”小结 


本 章 介绍 了 相似 性 学 习 的 基础 知识 。 我 们 研究 了 诸如 度量 学 习 、 挛 生 网 络 和 FaceNet 等 算法 ; 
学 习 了 损失 函数 , 如 对 比 损失 和 三 元 组 损失 。 本 章 还 涵盖 了 两 个 不 同 的 领域 : 排序 和 推荐 。 最 后 ， 
通过 了 解 检 测 、 基 准点 检测 和 相似 性 评分 等 几 个 步 又， 掌握 了 人 脸 识 别 的 一 系列 过 程 。 

下 一 章 将 介绍 递归 神经 网 络 及 其 在 自然 语言 处 理 问 题 中 的 应 用 。 之 后 ， 我 们 将 使 用 与 图 像 
模型 相 结 合 的 语言 模型 为 图 像 添加 题 注 ， 讨 论 该 问题 的 几 种 算法 ,并 查看 两 种 不 同类 型 数据 的 
实现 。 


























图 像 题 注 











在 本 章 中 , 我 们 将 处 理 给 图 像 加 题 注 的 问题 。 这 涉及 检测 目标 并 为 图 像 提供 文本 题 注 。 图 像 
题 注 也 可 以 称 为 图 像 到 文本 的 翻译 。 这 曾经 被 认为 是 一 个 非常 棘手 的 问题 ,现在 已 经 有 了 相当 好 
的 解决 方法 。 本 章 需 要 具有 相应 题 注 的 图 像 数据 集 。 我 们 将 详细 介绍 图 像 题 注 的 技术 和 应 用 。 
本 章 涉及 以 下 主题 : 
口 了 解 用 于 评估 它们 的 不 同 数据 集 和 指标 ; 
口 了 解 用 于 自然 语言 处 理 问 题 的 一 些 技术 ; 
口 文本 向 量化 模型 ; 
口 几 种 图 像 题 注 算法 ; 
口 不 良 的 结果 和 改进 的 余地 。 


























7.1 了 解 问题 和 数据 集 


为 图 像 自动 生成 题 注 是 一 项 关键 的 深度 学 习 任务 ， 因 为 它 结合 了 语言 和 视觉 这 两 个 领域 。 该 
问题 的 独特 性 使 其 成 为 计算 机 视觉 中 的 主要 问题 之 一 。 图像 题 注 的 深度 学 习 模 型 应 该 能 够 识别 图 
像 中 存在 的 目标 , 并 且 以 自然 语言 生成 文本 来 表示 目标 与 动作 之 间 的 关系 。 针 对 这 个 问题 的 数据 
集 很 少 ， 其 中 最 著名 的 是 第 4 章 中 介绍 的 目标 检测 中 COCO 数据 集 的 扩展 。 


7.2 理解 图 像 题 注 的 自然 语言 处 理 


由 于 必须 从 图 像 中 生成 自然 语言 ， 因 此 熟悉 自然 语言 处 理 就 显得 非常 重要 了 。 自 然 语 言 处 理 
的 概念 是 一 个 很 大 的 主题 , 因此 我 们 将 范围 限制 在 与 图 像 题 注 相 关 的 主题 上 。 文本 是 自然 语言 的 
一 种 形式 。 它 是 词 或 字符 的 序列 。 文 本 的 原子 元 素 称 为 标记 ( token )， 它 是 一 个 字符 序列 。 一 个 
字符 是 文本 的 一 个 原子 元 素 。 

为 了 以 文本 的 形式 处 理 自 然 语言 ， 文 本 必须 进行 删除 顿 号 、 括 号 等 预 处 理 。 然 后 ,文本 通过 
将 它们 分 隔 为 空格 而 被 标记 为 单词 。 接 着 , 将 这 些 单词 转换 为 向 量 。 接 下 来 ,我 们 将 看 到 这 个 向 
量 转 换 如 何 提供 帮助 。 
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7.2.1 用 向 量 形 式 表 达 词 


以 向 量 形式 表达 的 词 可 以 帮助 自身 执行 算术 运算 。 向 量 必须 是 紧凑 的 ， 维 度 较 小 。 同 义 词 应 
该 有 相似 的 向 量 , 反义词 应 该 有 不 同 的 向 量 。 可 以 将 词 转换 为 向 量 , 以 便 比较 关系 , 如 图 7-1 所 示 。 
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这 种 向 量 算法 可 以 在 不 同 实体 之 间 的 语义 空间 中 进行 比较 。 接 下 来 , 我 们 将 学 习 创建 一 个 可 
以 将 词 转换 为 向 量 表示 的 深度 学 习 模 型 。 








7.2.2 ”将 词 转换 为 向 量 


通过 在 大 型 文本 语料库 上 训练 模型 ， 可 以 将 单词 转换 为 向 量 。 该 模型 经 过 训练 ， 只 要 给 出 一 
个 单词 ， 就 可 以 预测 相近 的 单词 。 在 预测 相近 单词 的 独 热 编码 之 前 ， 词 首先 被 独 热 编码 ， 然 后 是 
隐藏 层 。 以 这 种 方式 进行 训练 将 创建 一 个 紧凑 的 词 表示 。 词 的 上 下 文 可 以 通过 两 种 方式 获得 ， 如 
下 所 示 。 


口 Skip-gram: 给 定 一 个 词 ， 尝 试 预测 几 个 接近 的 词 。 
口 Continuous Bag Of Words CBOW): 通过 给 定 的 一 组 词 预测 出 一 个 词 , 是 Skip-gram 的 
反 转 。 


7-2 说 明了 这 些 过 程 。 
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图 7-2 


两 种 方法 都 显示 出 良好 的 效果 。 词 被 转换 为 误 和 人 空间 中 的 向 量 。 接 下 来 介绍 训练 误 入 空间 的 
细节 。 

















7.2.3 ”训练 一 个 藤 入 


般 入 可 以 用 图 7-3 所 示 的 模型 进行 训练 。 
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如 图 7-3 所 示 ， 基 于 上 下 文 或 历史 来 预测 目标 词 。 预 测 基 于 Softmax 分 类 器 。 隐 藏 层 将 舱 入 
学 习 为 紧凑 表示 。 请 注意 ， 这 不 是 一 个 完整 的 深度 学 习 模 型 ， 但 它 仍然 运作 良好 。 图 7-4 是 使 用 
Softmax 分 类 器 进行 通信 的 低 维 可 视 化 。 
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图 7-4 
该 可 视 化 是 使 用 TensorBoard 生成 的 。 具 有 相似 语义 但 词性 不 同 的 词 一 起 出 现 。 
我 们 已 经 学 会 了 如 何 训练 用 于 生成 文本 的 紧凑 表示 ， 接 下 来 学 习 图 像 题 注 的 方法 。 
































7.3 图 像 题 注 和 相关 问题 的 方法 


我 们 已 经 提出 了 几 种 用 于 题 注 图 像 的 方法 。 直 观 地 说 , 图 像 被 转换 为 视觉 特征 并 且 从 特征 生 
成 文本 。 生 成 的 文本 将 以 词 甬 和 人 的 形式 出 现 。 生 成 文本 的 主要 方法 涉及 LSTM 和 注意 力 
( attention )。 我 们 先 从 一 种 旧 的 文本 生成 方式 开始 。 
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7.3.1 使 用 条 件 随 机 场 来 链接 图 像 和 文本 


Kulkarni 等 人 提出 了 一 种 从 图 像 中 查找 目标 和 属性 并 用 条 件 随 机 场 ( CRF ) 生 成 文本 的 方法 。 
传统 上 ，CRF 用 于 结构 化 预测 ， 如 文本 生成 等 。 生 成 文本 的 流程 如 图 7-5 所 示 。 























(D 物体 /东西 CO) 属性 G) 介词 
brown 0.01 near(a,b) 1 (4) 创建 的 CRF (6) 生成 的 句子 
B striped 0.16 near(b,a) 1 
， 让 人 Thisis a photograph of one 
feathered .06 会 beside(a,b) .24 person and one brown sofa 
二 | beside(b,a) .17 and one dog. The person is 
外 一 against the brown sofa. And 
Tbrown 032 the dog is near the person, 
striped 0.09 near(a,c) 1 , 
furry .04 near(c,a) 1 and beside the brown sofa. 
wooden .2 T against(a,c) .3 
Feathered .04 和 against(c,a) .05 
a | beside(a,c) .5 
beside(c,a) .45 
(b) person 四 
| brown 0.9% be : 
striped 0.10 near(c, , 
， against(b,c) .67 A 签 
Huo 1 — S| aeonstlet) 3 (5) 预测 的 标签 
Feathered .08 beside(b,c) .0 <<null,person_b>,against,<brown,sofa_c>> 
SS beside(c,b) .19 <<null,dog_a>,near,<null,person_b>> 
() sofa bE <<null,dog_a>,beside,<brown,sofa_c>> 











* 经 Kulkarni 等 人 许可 转载 
图 7-5 


在 适当 地 放置 介词 以 一 致 的 方式 生成 文本 方面 ，CRF 的 使 用 存在 局 限 。 结 果 如 图 7-6 所 示 。 











有 一 头 牛 和 一 片 天 空 。 金 色 的 牛 在 蓝天 下 。 








有 两 架 飞机 。 第 一 架 闪 亮 的 飞机 靠近 第 二 架 闪 亮 的 飞机 。 

















* 经 Kulkarni 等 人 许可 转载 
图 7-6 


结果 对 目标 和 属性 有 适当 的 预测 ， 但 未 能 产生 好 的 描述 。 





7.3.2 在 CNN 特征 上 使 用 RNN 生成 题 注 


Vinyals 等 人 提出 了 一 种 端 到 端的 图 像 题 注 的 深度 学 习 方 法 ， 该 方法 将 CNN 和 RNN 背靠背 
堆 秋 在 一 起 。 这 是 一 个 端 到 端的 可 训练 模型 ， 结 构 如 图 7-7 所 示 。 
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一 群 人 在 露天 市 场 购物 。 


语言 生成 
RNN 


水 果 摊 上 有 很 多 蔬菜 。 














* 经 Vinyals 等 人 许可 转载 (2015 年 ) 





图 7-7 
该 模型 可 以 生成 一 个 以 自然 语言 完成 的 句子 。CNN 和 LSTM 的 扩展 视图 如 图 7-8 所 示 。 




















* 经 Vinyals 等 人 许可 转载 





图 7-8 
7-8 是 LSTM 的 扩展 视图 。 图 7-9 显示 了 一 组 选择 的 结果 。 
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一 个 戴 粉 红色 帽子 的 小 女孩 
RE ee 


4 ld ME Ek 
-交友 





一 个 躺 在 沙发 上 的 猫 的 近景 。 














描述 没有 错误 


与 图 像 有 些 相关 


一 个 人 在 土路 上 骑 摩 托 车 。 两 条 狗 在 草地 上 玩 页 。 请 板 手 在 坡 道 上 做 了 一 个 技巧 。 一 只 狗 正 在 跳 起 去 抓 飞盘 。 














* 经 Vinyals 等 人 许可 转载 (2015 年 ) 





图 7-9 


在 这 个 过 程 中 ，CNN 将 图 像 编 码 成 特征 ， 然 后 RNN 根据 这 些 特 征 生成 一 个 句子 。 





7.3.3 ”使 用 图 像 排序 创建 题 注 


Ordonez 等 人 提出 了 一 种 方法 ， 对 图 像 进行 排序 ， 然 后 生成 题 注 ， 流 程 如 图 7-10 所 示 。 










Gist 本 Tiny 图 像 排 序 提取 高 级 别 信息 | 最 高 的 重 排序 图 像 


查询 图 像 





匹配 的 图 像 和 提取 的 内 容 





最 相关 的 题 注 
Yannicks 公 寓 的 街 对 面 。 
在 右 侧 ， 门 把 手 上 方 的 
照明 灯亮 起 。 

这 是 我 住 的 建筑 。 我 的 
窗户 在 4 楼 的 右边 。 

这 是 他 们 拆 下 车 项 后 成 
功 把 我 送 到 救护 车 的 车 。 
我 真 的 很 喜欢 门 。 开 车 
经 过 宾 儿 法 尼 亚 州 的 一 
个 教堂 时 我 从 车 窗 里 拍 
下 了 这 张 照 片 。 








* 经 Ordonez 等 人 许可 转载 (2015 年 ) 





图 7-10 


从 排序 图 像 中 提取 的 高 级 别 信息 可 用 于 生成 文本 。 可 用 于 排序 的 图 像 越 多 ， 
图 7-11 所 示 。 





效果 就 越 好 ,如 
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查询 图 像 lk 匹配 10k 匹配 100k 匹配 lmillion 匹配 
* 经 Ordonez 等 人 许可 转载 (2015 年 ) 











图 7-11 


7.3.4 ”从 图 像 检 索 题 注 与 从 题 注 检索 图 像 


Chen 等 人 提出 了 一 种 从 图 像 检 索 文本 和 从 文本 检索 图 像 的 方法 ,这 是 一 个 双向 映射 ,图 7-12 
展示 了 一 个 人 用 自然 语言 解释 图 像 ， 而 男 一 个 人 根据 他 的 文本 进行 视觉 想象 。 












男孩 把 棒球 扔 出 去 了 。 














* 经 Chen 等 人 许可 转载 (2015 年 
图 7-12 

检索 题 注 可 以 通过 将 图 像 和 文字 的 编码 器 连接 到 一 个 隐 空 间 (latent space ) 来 实现 ， 如 图 7-13 
所 示 。 


7 
整个 模型 视觉 特征 趾 句子 句子 四 视觉 特征 | 


一 


















































(0) 











* 经 Chen 等 人 许可 转载 (2015 年 ) 





图 7-13 
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图 像 中 的 第 一 个 模型 是 用 于 训练 的 完整 模型 。 视 觉 特征 也 可 用 于 生成 甸子， 反之 亦 然 。 





7.3.5 ”密集 题 注 
Johnson 等 人 提出 了 一 种 用 于 密集 题 注 的 方法 。 首 先 ， 让 我 们 通过 图 7-14 来 了 解 这 个 任务 。 




















两 个 人 站 在 海滩 上 。 交 通 标 志 是 黑色 和 白色 。 女 孩 抱 着 一 个 飞盘 。 一 个 木 牌 。 白 色 标 志 与 黑色 字 。 
男子 手持 白色 飞盘 。 空 中 的 白色 飞盘 。 短 裤 是 蓝 色 的 。 支 撑 标志 的 金属 杆 。 标 志 是 黄色 的 。 














* 经 Johnson 等 人 许可 转载 
图 7-14 
如 你 所 见 ， 为 图 像 中 的 目标 和 动作 生成 单独 的 标题 ， 由 此 得 名 密集 题 注 ( dense captioning )。 
图 7-15 展示 了 Johnson 等 人 提出 的 架构 。 


该 架构 实质 上 是 Faster-RCNN 和 LSTM 的 组 合 。 建立 区 域 以 生成 日 标 检 测 结 果 , 并 使 用 区 域 
的 视觉 特征 来 生成 题 注 。 
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3xWxH CNN 特 征 : “ 曾 ” 区 域 编码 : 
BxD 






















a 和 LSTM 





识别 网 络 


本 采样 网 格 : 
最 佳 建议 : BxXxYx2 
Bx4 











































本 又 图 
Lh | 
一品 | 
CNN 特 征 : 区 域 特征 : 
CxW xH' BXxS12xX7%7 
* 经 Johnson 等 人 许可 转载 





图 7-15 
7.3.6 使 用 RNN 生成 题 注 


Donahue 等 人 提出 了 用 于 图 像 题 注 任务 的 长 期 循环 卷 积 架构 ( long-term recurrent convolutional 
architecture，LRCN )。 此 模型 的 架构 如 图 7-16 所 示 。 























* 经 Donahue 等 人 许可 转载 





图 7-16 


图 中 显示 的 CNN 和 LSTM 都 是 在 不 同时 间 分 享 权 重 ， 这 使 得 该 方法 可 以 扩展 到 任意 长 的 
序列 。 
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7.3.7 ”使 用 多 模 态 度量 空间 


Mao 等 人 提出 了 多 模 态 嵌入 空间 ( multimodal embedding space ) 方法 来 生成 题 注 ， 如 图 7-17 
所 示 。 





























* 经 Mao 等 人 许可 转载 
图 7-17 
Kiros 等 人 提出 了 另 一 种 多 模 态 方法 来 生成 题 注 ， 可 以 将 图 像 和 文本 都 代入 到 同一 个 多 模 态 
空间 中 ， 如 图 7-18 所 示 。 








多 模 态 空间 





， Steam ship at 


CNN-LSTM 解码 器 


SR | 











* 经 Kiros 等 人 许可 转载 





这 两 种 多 模 态 方 法 都 有 很 好 的 效果 。 
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7.3.8 使 用 注意 网 络 生成 题 注 

Xu 等 人 提出 了 一 种 使 用 注意 力 机 制 的 图 像 题 注 的 方法 。 注意 力 机 制 赋予 图 像 的 某 些 区 域 更 
多 的 权重 。 注 意 力 还 可 以 实现 可 视 化 ,向 我 们 展示 模型 在 生成 下 一 个 词 时 关注 的 位 置 。 提 出 的 模 
型 如 图 7-19 所 示 。 











1. 输入 图 像 2. 卷 积 特 征 提取 4. 逐 词 生成 
9RNN 











* 经 Xu 等 人 许可 转载 





图 7-19 
首先 ， 从 图 像 中 提取 CNN 特征 。 然 后 ， 将 有 注意 力 机 制 的 RNN 应 用 于 图 像 而 生成 词 。 


7.3.9 知道 什么 时 候 查 看 


Lu 等 人 提出 的 注意 力 机 制 方法 获得 了 优异 的 结果 。 知 道 什么 时 候 查 看 注意 力 机 制 捕获 的 区 
域 会 产生 更 好 的 结果 ， 流 程 如 图 7-20 所 示 。 














过 山 挤 盏 内 














* 经 Lu 等 人 许可 转载 
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注意 力 机 制 如 图 7-21 所 示 。 

















* 经 Lu 等 人 许可 转载 
图 7-21 


图 7-22 特别 标示 了 注意 力 关注 的 区 域 的 结果 。 



















A \ a », F Tm 
一 个 小 女孩 拿 着 一 把 伞 坐 在 长 椅 上 。 一群 羊 在 郁郁 葱 葱 的 绿色 山坡 上 吃 草 。 人 行道 上 的 消防 栓 的 一 个 近景 。 








一 匹 班 马 站 立 在 土地 上 ， 
旁边 是 另 一 匹 得 马 。 


一 块 黄色 的 盘子 ， 
上 面 放 着 内 和 瑟 兰 化 。 
NE 
































> | . 
2 > 》 
坐 在 树枝 顶部 的 两 只 鸟 。 一 头 站 立 在 岩 壁 旁 的 大 象 。 一 个 男人 沿 着 一 条 道路 骑 着 自行 车 ， 
旁边 是 一 片 水 域 。 
* 经 Lu 等 人 许可 转载 
图 7-22 


在 生成 题 注 时 ， 注 意 力 的 展开 在 这 里 可 视 化 ， 如 图 7-23 所 示 。 
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* 经 Lu 等 人 许可 转载 





图 7-23 


我 们 已 经 学 习 了 几 种 生成 题 注 的 方法 ， 接 下 来 来 看 一 个 实现 。 


7.4 实现 基于 注意 力 的 图 像 题 注 


让 我 们 使 用 以 下 代码 从 VGG 和 LSTM 模型 定义 一 个 CNN: 


vgg_model = tf.keras.applications.vgg16.VGG16 (weights='imagenet', 
include top=False, 
input_tensor=input_tensor, 
input_shape=input_shape) 

word_embedding = tf.keras.layers.Embedding!( 

vocabulary_size, embedding dimension, input_length=sequence_length) 

embbedding = word_ embedding (previous_words) 

embbedding = tf.keras.layers.Activation('relu') (embbedding) 

embbedding = tf.keras.layers.Dropout (dropout_prob) (embbedding) 


cnn_features_flattened = tf.keras.layers.Reshape( (height * height, 


shape)) (cnn_features) 
net = tf.keras.layers.GlobalAveragePoolinglD() (cnn_ features_flattened) 








net = tf.keras.layers.Dense (embedding dimension, activation='relu') (net) 
net = tf.keras.layers.Dropout (dropout_prob) (net) 

net = tf.keras.layers.RepeatVector (sequence_length) (net) 

net = tf.keras.layers.concatenate() ([net, embbedding]) 

net = tf.keras.layers.Dropout (dropout_prob) (net) 





现在 已 经 定义 了 CNN， 接 下 来 定义 注意 力 层 ， 如 下 所 示 : 


h_out_linear = tf.keras.layers.Convolution1lD( 

depth, 1, activation='tanh', border_mode='same') (nh) 
h_out_linear = tf.keras.layers.Dropout\( 

dropout_prob) (h_out_linear) 

h_out_embed = tf.keras.layers.Convolution1lD( 

embedding_ dimension, 1, border mode='same') (h_out_linear) 
z_h_ embed = tf.keras.layers.TimeDistributed( 
tf.keras.layers.RepeatVector (num vfeats)) (h_out_embed) 








Vi = tf.keras.layers.Convolution1D( 
depth, 1, border mode='same', activation='relu') (V) 


Vi = tf.keras.layers.Dropout (dropout_prob) (Vi) 
Vi_emb = tf.keras.layers.ConvolutionlD( 
embedding dimension, 1, border mode='same', activation='relu') (Vi) 


Zz_Vv_linear = tf.keras.layers.TimeDistributed!( 
tf.keras.layers.RepeatVector (sequence_ length)) (Vi) 

Zz_Vv_embed = tf.keras.layers.TimeDistributed!( 
tf.keras.layers.RepeatVector (sequence_length)) (Vi_emb) 


ZzZ_Vv_linear = tf.keras.layers.Permute((2, 1, 3))(z_v_linear) 
Zz_v_embed = tf.keras.layers.Permute((2, 1, 3))(z_v_embed) 


fake_feat = tf.keras.layers.Convolution1lD( 
depth, 1, activation='relu', border mode='same') (s) 
fake_feat = tf.keras.layers.Dropout (dropout_prob) (fake_feat) 


fake_feat_embed = tf.keras.layers.Convolution1D( 

embedding_ dimension, 1, border_ mode='same') (fake_ feat) 
z_s_linear = tf.keras.layers.Reshape( (sequence_ length, 1, 
depth)) (fake_feat) 
Zz_s_embed = tf.keras.layers.Reshapel 

(sequence_length, 1, embedding_ dimension)) (fake_feat_embed) 


Zz_Vv_linear = tf.keras.layers.concatenate(axis=-2) ([z_v_linear, z_s_linear]) 
Z_V_embedq = tf.keras.layers.concatenate(axis=-2) ([z_vVv_embed, z_s_embed]) 


Z = tf.keras.layers.Merge (mode='sum') ([z_h_ embed,z_v_embed]) 
Z = tf.keras.layers.Dropout (dropout_prob) (z) 
z = tf.keras.layers.TimeDistributed( 

















tf.keras.layers.Activation('tanh'))(z) 
attention = tf.keras.layers.TimeDistributed!( 
tf.keras.layers.Convolution1lD(1, 1, border mode='same'))(z) 
attention = tf.keras.layers.Reshape( (sequence_ length, 
num vfeats)) (attention) 
attention = tf.keras.layers.TimeDistributed!( 
tf.keras.layers.Activation('softmax')) (attention) 
attention = tf.keras.layers.TimeDistributed!( 
tf.keras.layers.RepeatVector (depth)) (attention) 
attention = tf.keras.layers.Permute((1,3,2)) (attention) 
w_Vi = tf.keras.layers.Add() ([attention,z_v_linear]) 


sumpool = tf.keras.layers.Lambda(lambda x: K.sum(x, axis=-2), 
output_shape= (depth, )) 
Cc_vec = tf.keras.layers.TimeDistributed(sumpool) (w_Vi) 


atten out = tf.keras.layers.Merge (mode='sum') ([h_out_linear,c_ vec]) 
h = tf.keras.layers.TimeDistributed!( 
tf.keras.layers.Dense(embedding dimension, activation='tanh')) (atten_ out) 


h = tf.keras.layers.Dropout (dropout_prob) (h) 


predictions = tf.keras.layers.TimeDistributed!( 
tf.keras.layers.Dense(vocabulary_size, activation='softmax')) (h) 
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在 前 面 代码 的 帮助 下 ， 我 们 定义 了 一 个 深度 学 习 模 型 。 该 模型 借助 注意 力 机 制 将 CNN 特征 
与 RNN 结合 起 来 。 这 是 目前 生成 题 注 的 最 好 方法 。 





7.5 小结 

在 本 章 中 , 我 们 理解 了 与 图 像 题 注 相 关 的 问题 ; 学 习 了 一 些 涉 及 自然 语言 处 理 的 技术 和 各 种 
word2vec 模型 ， 如 GLOVE; 理解 了 几 种 算法 ， 如 CNN2RNN 、 度 量 学 习 和 组 合 目 标 ; 实现 了 一 
个 结合 了 CNN 和 LSTM 的 模型 。 

下 一 章 将 介绍 生成 模型 。 我 们 将 从 头 开 始 学 习 和 实现 风格 算法 ， 了 解 一 些 最 佳 模 型 ， 并 学 习 
很 酷 的 生成 对 抗 网 络 (GAN ) 及 其 各 种 应 用 。 

















生成 模型 








生成 模型 ( generative model ) 已 经 成 为 计算 机 视觉 中 的 重要 应 用 。 与 之 前 章节 中 讨论 的 使 用 
图 像 进行 预测 的 应 用 不 同 ， 生 成 模型 可 以 为 特定 目标 创建 图 像 。 


本 章 涉及 以 下 主题 : 


口 生成 模型 的 应 用 ; 

口 风格 迁移 算法 ; 

口 为 超 分 辨 率 图 像 训练 模型 ; 
口 生成 模型 的 实现 和 训练 ; 
口 现 有 模型 的 缺点 。 


读 完 本 章 ， 你 将 能 够 实现 一 些 很 棒 的 迁移 风格 应 用 ,并 了 解 与 生成 模型 相关 的 可 能 性 以 及 


























8.1 生成 模型 的 应 用 


我 们 首先 讨论 生成 模型 的 可 能 应 用 。 生 成 模型 的 应 用 非常 多 , 我 们 将 通过 考查 其 中 一 些 应 用 
来 理解 其 动机 和 可 能 性 。 











8.1.1 艺术 风格 迁移 


艺术 风格 迁移 是 为 任意 图 像 进行 艺术 风格 转化 的 过 程 。 例 如 , 可 以 将 一 幅 图 像 的 艺术 风格 与 
男 一 幅 图 像 的 内 容 相 结 合 来 创建 图 像 。Gatys 等 人 展示 了 一 个 结合 了 几 种 不 同 风格 的 图 像 的 例子 
(图 8-1 )。 图像 4 是 原 照 片 ， 应 用 不 同 风格 的 结果 显示 在 其 他 图 像 中 。 
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* 经 Gatys 等 人 许可 转载 
图 8-1 


这 个 应 用 引起 了 公众 的 关注 ， 市 场 上 有 几 个 移动 应 用 程序 提供 这 种 功能 。 


8.1.2 ”预测 视频 中 的 下 一 帧 


使 用 生成 模型 可 以 预测 合成 视频 集 的 后 续 帧 。 图 8-2 由 Lotter 等 人 提出 ， 其 中 左 侧 的 图 像 是 
前 一 帧 的 模型 ， 右 侧 是 两 种 算法 生成 的 图 像 与 真实 图 像 的 比较 。 
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先前 帧 真实 值 MSE AL/MSE 真实 值 MSE AL/MSE 














* 经 Lotter 等 人 许可 转载 
图 8-2 


0 由 生成 模型 生成 的 帧 十 分 通 真 。 


8.1.3 ”图 像 的 超 分 辩 率 


超 分 辩 率 是 从 较 小 的 图 像 创 建 更 高 分 辩 率 图 像 的 过 程 。 传统 上 , 插值 方法 用 于 创建 更 大 的 
像 。 但 是 搬 值 给 出 了 平滑 后 的 效果 而 忽略 了 高 频 细 节 。 生 成 模型 是 为 达到 超 分 辨 率 这 一 特定 目的 
而 训练 的 , 它 可 以 创建 具有 优异 细节 的 图 像 。 图 8-3 是 由 Ledig 等 人 提出 的 这 种 模型 的 一 个 例子 。 
左 侧 以 4 倍 的 缩放 比例 生成 ， 看 起 来 与 右 侧 的 原始 图 像 没 有 什么 区 别 。 




















*# 经 Ledig 等 人 许可 转载 


8.1 


生成 模型 的 应 用 151 

















高 分 辩 率 对 于 在 高 质量 显示 屏 或 打印 机 上 显示 低 分 辩 率 


8.1.4 交互 式 图 像 生 成 





图 像 非常 有 用 。 另 一 种 应 用 是 压缩 


生成 模型 可 以 通过 交互 来 创建 图 像 。 用 户 可 以 添加 编辑 (edit )， 然 后 生成 图 像 。 此 处 给 出 





Zhu 等 人 提出 的 编辑 ， 如 图 8-4 所 示 。 
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* 经 Zhu 等 人 许可 转载 




















一 个 和 矩形 创建 为 一 座 摩天 大 楼 等 。 通过 用 户 的 进 一 


图 8-4 
如 图 8-4 所 示 , 图 像 是 基于 编辑 的 形状 和 颜色 生成 的 。 底部 的 一 


步 输入 生成 这 些 











个 绿色 笔画 创建 为 一 片 草地 ， 
图 像 并 进行 微调 。 生 成 的 图 像 





了 电 可 以 用 来 检索 可 被 使 用 的 最 相似 的 真实 图 像 。 交 互 式 图 像 生 成 为 直观 地 搜索 图 像 担 供 了 一 种 全 








新 的 方式 。 


8.1.5 图 像 到 图 像 的 翻译 


图 像 可 用 于 生成 具有 特定 目标 的 其 他 图 像 ， 因 此 该 过 程 称 为 图 像 到 图 像 的 翻译 〈image to 
image translation )。 图 8-5 展示 了 翻译 的 几 个 例子 ， 以 及 Isola 等 人 提出 的 相应 准则 。 
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标签 到 街景 











标签 到 建筑 物 外 观 黑白 到 条 
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第 入 空中 俯 车 到 地 图 千 


输出 
天 到 夜晚 
































输出 








* 经 Isola 等 人 许可 转载 





图 8-5 


人 带 有 标签 的 图 形 可 以 转换 为 具有 创意 的 通 真 的 图 像 。 黑 白 图像 可 以 转换 为 彩色 图 像 。 这 样 的 
翻译 对 照片 编辑 应 用 程序 、 老 电影 着 色 、 时 尚 设计 等 非常 有 用 。 






































8.1.6 ”文本 到 图 像 的 生成 


图 像 可 以 从 文本 描述 生成 ， 步 又 与 图 像 到 图 像 的 翻译 相似 。 图 8-6 是 由 Reed 等 人 在 自然 文 
本 描述 中 生成 的 一 些 例子 。 








这 个 华丽 的 家 伙 儿 乎 全 身 都 是 
这 只 小 鸟 有 一 个 粉红 色 的 胸部 和 ”黑色 的 ， 有 一 个 红 顶 和 白色 的 
冠 羽 ， 黑 色 的 主 飞 羽 和 次 飞 羽 。 面 












































花 有 明亮 的 粉 紫色 的 花瓣 和 白色 ”这 种 黄白 相间 的 花 有 细 的 白色 花 














的 柱头 。 办 和 圆 形 的 黄色 花蕊 。 














* 经 Reed 等 人 许可 转载 
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0 目前 , 该 模型 仅 适用 于 少数 几 个 目标 。 从 文本 生成 图 像 还 达 不 到 在 应 用 程序 中 使 
用 的 效果 。 


8.1.7 ”图像 修复 
修复 ( inpainting ) 是 填补 图 像 中 的 间隙 的 过 程 ， 如 图 8-7 所 示 。 














图 8-7 


左 侧 是 正常 的 图 像 ， 右 侧 是 处 理 后 的 图 像 。 正 如 图 像 中 显示 的 那样 ， 不 需要 的 部 分 会 从 图 
像 中 删除 。 图 像 修 复 用 于 从 图 像 中 移 除 不 需要 的 目标 ， 以 及 填充 扫描 的 艺术 品 的 空间 。 









































8.1.8 图 像 混合 


图 像 混 合 ( blending ) 是 将 图 像 的 一 部 分 没有 任何 人 工 痕迹 地 顺利 粘贴 到 另 一 幅 图 像 上 的 过 
程 。 图 8-8 中 ， 图 像 a 显示 了 一 幅 图 像 放 在 男 一 幅 图 像 上 的 例子 ， 效 果 却 不 好 。 图 像 b 和 图 像 c 
分 别 代表 传统 的 混合 技术 ， 例 如 改进 的 泊 松 方法 (modified Poisson method ) 和 多 样 条 方法 
( multi-spline method )。 图 像 d 显示 了 一 种 生成 方法 的 混合 结果 。 与 其 他 方法 相 比 , 该 方法 的 结果 
更 好 。 
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(a) (b) 
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* 经 Wu 等 人 许可 转载 














图 8-8 
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(大 图 像 混 合 在 照片 编辑 和 电影 行业 的 特效 中 非常 有 用 。 


8.1.9 转换 属性 


图 像 的 属性 可 以 使 用 生成 模型 进行 更 改 。 人 脸 可 以 被 修改 以 反映 不 同 的 属性 , 如 性 别 、 眼 镜 
年 龄 等 ， 如 图 8-9 所 示 (由 Lample 等 人 提出 )。 


;NA 8 可 日 总 
"“ 合 QA 人 2 全 辣 人 9 售 加 加 到 
“人 QA: aN 
“QA 279a 8 全 可 四 虱 
“全 A: 日 2A 全 
2 N80 


图 8-9 
更 改 属 性 可 面向 创造 性 以 及 趣味 性 的 应 用 ， 还 可 用 于 生成 更 多 具有 变化 的 训练 数据 。 




























* 经 Lample 等 人 许可 转载 








8.1.10 创建 训练 数据 
生成 模型 可 以 用 于 生成 更 大 规模 的 训练 集 ， 甚 至 可 以 用 于 改善 为 训练 创建 的 合成 图 像 。 图 8-10 
是 使 用 生成 模型 为 交通 标志 识别 而 创建 的 合成 图 像 (由 Wangle 等 人 提出 )。 
$B BULAIBOOGUO 
a OE 让 有 区 下 





















































* 经 Wang 等 人 许可 转载 
图 8-10 


0 使 用 这 些 图 像 可 以 使 分 类 更 加 准确 。 
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8.1.11 创建 新 的 动画 角色 


如 图 8-11 所 示 ( 由 Ji 等 人 提出 )， 生 成 模型 可 用 于 创建 具有 各 种 属性 的 新 的 动画 角色 ， 如 
面部 表情 、 发 型 、 服 饰 等 。 




















0 { Y 4 《< 


* 经 Jin 等 人 许可 转载 








图 8-11 


创建 具有 不 同属 性 的 新 角色 可 能 会 为 动画 行业 带 来 革命 性 的 改变 。 














8.1.12 照片 3D 模型 
我 们 可 以 使 用 生成 模型 从 2D 图 像 创 建 3D 模型 ， 如 图 8-12 所 示 (由 Wu 等 人 提出 )。 


























* 经 Wu 等 人 许可 转载 





图 8-12 


从 图 像 创 建 3D 模型 对 于 机 器 人 、 增 强 现 实 和 动画 行业 非常 有 用 。 我 们 将 在 下 面 的 章节 中 学 
习 它 们 背后 的 算法 。 在 下 一 节 中 ， 我 们 将 实现 神经 艺术 风格 迁移 。 
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8.2 神经 艺术 风格 迁移 


要 实现 的 第 一 个 应 用 是 神经 艺术 风格 迁移 (neural artistic style transfer )。 在 这 里 ， 我 们 把 焚 
高 的 艺术 风格 迁移 到 一 幅 图 像 上 。 图 像 可 以 被 视 为 风格 和 内 容 的 组 合 。 艺 术 风 格 转换 技术 将 图 像 
转换 成 看 起 来 像 具 有 特定 绘画 风格 的 绘画 。 我 们 将 学 习 如 何 通 过 编码 实现 这 个 想法 。1oss 函数 
将 比较 用 照片 内 容 与 绘画 风格 生成 的 图 像 。 因 此 ,要 对 图 像 像素 进行 优化 ,而 不 是 对 网 络 的 权重 
进行 优化 。 通过 在 照片 的 内 容 上 与 生成 的 图 像 进 行 比较 , 然后 再 根据 绘画 风格 与 生成 的 图 像 进行 
比较 ， 计 算出 相应 的 两 个 值 。 











8.2.1 内 容 损 失 


由 于 像素 不 是 一 个 好 的 选择 ， 我 们 将 使 用 各 层 的 CNN 特征 ， 因 为 它们 能 更 好 地 表示 目标 的 
内 容 。 如 第 3 章 所 述 ， 初 始 层 具 有 高 频率 特征 ， 例 如 边缘 、 角 落 和 纹理 ; 但 后 面 的 层 表 示 物 体 ， 
因此 对 内 容 而 言 更 好 。 后 一 层 可 以 比 像素 更 好 地 比较 物体 到 物体 。 但 为 此 , 我 们 需要 先 使 用 以 下 
代码 导入 所 需 的 库 : 

import numpy as np 

from PIL import Image 

from scipy.optimize import ftmin 1 bfgs_b 

from scipy.misc import imsave 

from vgg16_avg import VGG16_Avg 

from keras import metrics 


from keras.models import Model 
from keras import backend as K 


现在 ,使 用 以 下 命令 加 载 所 需 的 图 像 : 


content_image = Image.open (work_dir + 'bird orig.png') 


我 们 将 在 这 个 实例 中 使 用 如 图 8-13 所 示 的 图 像 。 


























8.2 ”神经 艺术 风格 迁移 157 








由 于 我 们 使 用 VGG 架构 来 提取 特征 ， 因 此 必须 从 所 有 图 像 中 减 去 所 有 ImageNet 图 像 的 均值 ， 
如 下 所 示 : 


imagenet mean = np.array ([123.68, 116.779, 103.939], dtype=np.float32) 


def subtract_imagenet_ mean (image): 





























return (image - imagenet mean)[:, :, :, ::-1] 
请 注意 ， 通道 是 不 同 的 。 preprocess 函数 获取 生成 的 图 像 并 减 去 均值 ， 然后 反 转 通道 。 由 


























于 预 处 理 步 又 ，qeprocess 困 数 反 转 了 该 效果 ， 如 下 所 示 : 


def add_ imagenet_ mean (image, s): 
return np.clip(image.reshape(s)[:, :, :, ::-1] + imagenet mean, 0, 255) 


首先 来 看 一 下 如 何 使 用 其 他 图 像 的 内 容 创 建 一 幅 图 像 。 这 是 一 个 从 随机 噪声 中 创建 图 像 的 过 
程 ,这 里 使 用 的 内 容 是 某 些 层 中 激活 值 的 总 和 ,我 们 将 尽量 减少 随机 噪声 和 图 像 之 间 内 容 的 损失 ， 
这 就 是 所 谓 的 内 容 损 失 。 这 种 损失 类 似 于 逐 像素 损失 , 但 是 应 用 在 层 的 激活 值 上 ， 因 此 将 捕获 到 
内 容 而 排除 噪声 。 任 何 CNN 架构 都 可 以 用 来 对 内 容 岁 像 和 随机 噪声 进行 前 向 推断 。 激 活 值得 到 
后 计算 均 方 误差 ， 比 较 这 两 个 输出 的 激活 值 。 


随机 图 像 的 像素 被 更 新 而 CNN 权重 被 冻结 。 在 该 例子 中 ， 我 们 将 冻结 VGG 网 络 。 现 在 ， 
可 以 加 载 VGG 模型 。 生 成 图 像 对 下 采样 技术 ( 如 最 大 池 化 ) 非常 敏感 。 从 最 大 池 化 中 恢复 像素 
值 是 不 可 能 的 。 因 此 ， 平 均 池 化 比 最 大 池 化 更 平 请 。 使 用 平均 池 化 转换 VGG 模型 的 函数 用 于 加 
载 模 型 ， 如 下 所 示 : 


vgg_model = VGG16_Avg (include top=False) 


请 注意 ， 尽 管 池 化 类 型 已 更 改 ， 但 该 模型 的 权重 与 原始 模型 的 权重 相同 。ResNet 模型 和 
Inception 模型 不 适合 这 种 情况 ， 因为 它们 无 法 提供 各 种 抽象 。 我 们 将 采用 VGG 模型 的 最 后 一 个 
卷 积 层 即 block_conv1 的 激活 值 ， 同 时 模型 被 冻结 。 这 是 VGG 的 倒数 第 三 层 ， 具 有 宽 的 感受 
野 。 这 里 给 出 代码 供 参 考 : 


content_layer = vgg_model.get_layer('block5_ convl') .output 


现在 ， 用 截断 的 VGG 创建 一 个 新 模型 ， 直 到 提供 良好 特征 的 层 。 因 此 ， 图 像 现在 可 以 加 载 
并 可 用 于 执行 前 向 推断 ， 以 得 到 实际 激活 的 层 。 使 用 以 下 代码 创建 一 个 TensorFlow 变量 来 捕获 
激活 值 : 

content_ model = Model (vgg_model.input, content_layer) 

content_image_array = 

subtract_imagenet_mean (np.expand dims (np.array (content_image), 0)) 


content_image_shape = content_image_array .shape 
target = K.variable(content model.predict (content_image_array)) 








































































































我 们 定义 一 个 评估 类 来 计算 图 像 的 损失 和 梯度 。 以 下 类 会 在 迭代 的 任何 点 返回 损失 和 梯度 值 : 
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class ConvexOptimiser (object) : 
def __ init_ _(self, cost_function, tensor_shape): 
self.cost_function = cost_function 
self.tensor_shape = tensor_shape 
self.gradient_values = None 


def loss(self, point): 
loss_value, self.gradient_ values = 
self.cost_function([point.reshape(self.tensor_shape)]) 
return loss_value.astype (np.float64) 


def gradients (self, point): 
return self.gradient values.flatten() .astype (np.float64) 


损失 函数 可 以 定义 为 特定 卷 积 层 激活 值 之 间 的 均 方 误差 。 将 在 生成 图 像 的 层 和 原始 内 容 照片 
之 间 计算 损失 ， 如 下 所 示 : 


mse_loss = metrics.mean_sdquaredq_ertror (Content_1ayer，tatrget) 


通过 考虑 模型 的 输入 计算 损失 的 梯度 ， 如 下 所 示 : 


grads = K.gradients (mse_loss, vgg_model.input) 


函数 的 输入 是 模型 的 输入 ， 函 数 的 输出 将 是 损失 和 梯度 值 的 数组 ， 如 下 所 示 : 
cost_function = K.function([vgg model.input], [mse_loss]+grads) 

这 个 函数 的 优化 是 确定 的 ， 因 此 不 需要 SGD。 

optimiser = ConvexOptimiser(cost_function, content_image_shape) 


此 函数 可 以 使 用 一 个 简单 的 优化 器 进行 优化 , 因为 它 是 凸 函 数 且 是 确定 的 。 我 们 也 可 以 在 迭 
代 的 每 一 步 中 保存 图 像 。 我们 将 以 这 样 一 种 方式 来 定义 它 : 最 终 优化 的 梯度 值 是 可 访问 的 ,正如 
我 们 使 用 scikit-learm 的 优化 器 一 样 。 请 注意 ,这 个 损失 函数 是 凸 函 数 ， 因 此 ,一 个 简单 的 优化 器 
足够 用 于 计算 。 优 化 器 可 以 使 用 以 下 代码 进行 定义 : 


def optimise(optimiser, iterations, point, tensor_shape, file name): 
for i in range(iterations): 
point, min val, info = fmin 1 bfgs_b(optimiser.loss, 
point.flatten(), 



























































fprime=optimiser.gradients, maxfun=20) 
point = np.clip(point, -127, 127) 





BEInt (LoS MIN val) 
imsave (work_dir + 'gen_'+file name+'_{i}.png', 
adqd_imagenet_ mean(point.copy(), tensor_shape)[0]) 


return point 


优化 器 获取 loss 函数 、 点 和 梯度 这 些 参 数 ， 并 返回 更 新 。 需 要 生成 一 幅 随 机 图 像 ， 使 内 容 
损失 最 小 化 ， 如 下 所 示 : 


def generate_ rangd_ img (shape): 
return np.random.uniform(-2.5, 2.5, shape)/1 
generated_image = generate rand_ img (content_image_shape) 
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图 8-14 是 创建 的 随机 图 像 。 
优化 可 以 运行 10 次 迭代 以 查看 结果 。 
iterations = 10 
generated_ image = optimise(optimiser, iterations, generated image, 
content_image_shape, 'content') 
如 果 一 切 顺利 ， 在 迭代 过 程 中 ， 损 失 应 如 下 所 示 : 
Current loss value: 73.2010421753 
Current loss value: 22.7840042114 
Current loss value: 12.6585302353 
Current loss value: 8.53817081451 
Current loss value: 6.64649534225 
Current loss value: 5.56395864487 
Current loss value: 4.83072710037 
Current loss value: 4.32800722122 
Current loss value: 3.94804215431 
Current loss value: 3.66387653351 
图 8-15 是 生成 的 图 像 ， 现 在 它 看 起 来 差不多 像 一 只 久 可 以 运行 优化 以 进行 进一步 迭代 来 


完成 此 操作 。 
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优化 器 接收 了 图 像 并 更 新 了 像素 , 使 内 容 相 同 。 尽 管 结果 较 差 , 但 它 可 以 在 一 定 程度 上 重 现 


图 像 的 内 容 。 所 有 通过 迭代 得 到 的 图 像 都 直观 地 说 明了 如 何 生成 图 像 。 这 个 过 程 没 有 涉及 批 次 。 
下 一 节 中 将 介绍 如 何以 绘画 风格 创建 图 像 。 





8.2.2 ”使 用 Gram 和 矩阵 的 风格 损失 


创建 具有 原始 图 像 内 容 的 图 像 后 , 我 们 将 了 解 如 何 仅 使 用 风格 创建 图 像 。 风 格 可 以 被 认为 是 
图 像 的 颜色 和 纹理 的 混合 。 为 此 ,我 们 将 定义 风格 损失 。 首 先 ， 加 载 图 像 并 将 其 转换 为 数组 ， 如 
下 所 示 : 


style_image 





Image.open (work_dir + 'starry_night .png') 
style_image style_image.resize(np.divide(style_ image.size, 
3.5) .astype ('int32')) 


图 8-16 是 我 们 加 载 的 风格 图 像 。 








图 8-16 


现在 使 用 以 下 代码 ， 通 过 更 改 通道 来 预 处 理 此 图 像 : 














style_image_array = subtract_imagenet _ mean (np.expangd dims (style_image, 
上] 
style_image_shape = Style_image_array.shape 


为 此 ， 我 们 将 考虑 儿 个 层 ， 就 像 在 下 面 的 代码 中 所 做 的 那样 : 


model = VGG16_Avg (include top=False, input_shape=shpl[1:]) 


outputs = {l.name: l.output for 1 in model.layers)} 
接 下 来 ,使 用 以 下 代码 将 多 个 层 作 为 前 四 个 块 的 数组 输出 : 
layers = [outputs['block{}_convl'.format(o)] for o in range(1,3)] 








创建 一 个 新 模型 来 输出 所 有 这 些 层 并 分 配 目标 变量 ， 如 下 所 示 : 
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layers_model = Model (model.input, layers) 
targs = [K.variable(o) for o in layers_ model.predict (style_arr)] 





风格 损失 使 用 Gram 和 矩阵 计算 。Gram 矩阵 是 一 个 矩阵 及 其 转 置 的 乘积 。 激 活 值 用 来 转 置 和 
相 乘 。 然 后 用 这 个 矩阵 计算 风格 和 随机 图 像 之 间 的 误差 。Gram 和 矩阵 丢失 了 位 置信 息 ， 但 会 保留 
纹理 信息 。 我 们 将 使 用 下 面 的 代码 定义 Gram 矩阵: 

def grammian matrix(matrix): 


flattened matrix = 
1))) 








K.batch_ flatten(K.permute dimensions (matrix, (2, 0, 


matrix transpose_dot = K.dot (flattened matrix, 
K.transpose (flattened matrix)) 

element_count = matrix.get_shape() .num elements() 

return matrix transpose_dot / element_count 








正如 你 知道 的 那样 , 它 是 衡量 一 对 列 之 间 的 相关 性 的 指标 。 高 度 和 宽度 维度 变 平坦 。 这 不 包 
括 任何 局 部 信息 ， 因 为 坐标 信息 被 忽略 了 。 如 以 下 代码 所 示 ， 风 格 损失 计算 输入 图 像 的 Gram 拢 
阵 与 目标 之 间 的 均 方 误差 : 


def style mse_ loss(x, y): 


return metrics.mse(grammian matrix(x), grammian matrix(y)) 


现在 使 用 以 下 代码 ， 将 来 自 各 个 层 的 所 有 激活 值 相 加 来 计算 损失 : 


style_loss = sum(style mse_loss(11[0], 12[0]) for 11, 12 in 
zip(style_ features, style_ targets)) 

grads = K.gradients(style_ loss, vgg_model.input) 

style_fn = K.function([vgg_model.input], [style_loss]+grads) 


optimiser = ConvexOptimiser(style_ fn, style_image_shape) 








然后 , 创建 一 个 随机 图 像 来 求解 它 ， 就 像 以 前 一 样 。 但 是 这 一 次 ,我 们 还 会 应 用 一 个 高 斯 滤 
波 器 ， 如 下 所 示 


generated_ image = generate_randq_img(style_image_shape) 


生成 的 随机 图 像 如 图 8-17 所 示 。 








了 
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图 8-17 
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优化 可 以 运行 10 次 迭代 以 查看 结果 ， 如 下 所 示 : 


generateqd_ image = optimise(optimiser, iterations, generated image, 
style_image_shape) 


如 果 一 切 顺 利 ， 求 解 器 应 打印 类 似 以 下 内 容 的 损失 值 : 


Current loss Value: 5462.45556641 
Current loss value: 189.738555908 
Current loss value: 82.4192581177 
Current loss value: 55.6530838013 
Current loss value: 37.215713501 
Current loss value: 24.4533748627 
Current loss value: 15.5914745331 
Current loss value: 10.9425945282 
Current loss value: 7.66888141632 
Current loss value: 5.84042310715 


图 8-18 是 生成 的 图 像 。 
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我 们 从 随机 噪声 中 创建 了 一 幅 具 有 特定 绘画 风格 的 图 像 , 而 没有 任何 位 置信 息 。 下 一 节 将 介 
绍 如 何 将 内 容 和 风格 损失 相 结合 。 


8.2.3 ”风格 迁移 


现在 我 们 知道 了 如 何 重建 图 像 , 以 及 如 何 构 建 一 幅 能 捕捉 原始 图 像 风 格 的 图 像 。 显而易见 的 
想法 是 通过 加 权 和 添加 两 个 1oss 函数 将 这 两 种 方法 结合 起 来 ， 如 下 所 示 : 


wh = style.size 
SITC = img arr[:,:h,:w] 


像 以 前 一 样 , 我 们 将 获取 一 系列 层 的 输出 来 计算 风格 损失 。 但 是 , 我 们 仍然 只 需要 一 个 层 输 
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出 来 计算 内 容 损失 。 如 何 知道 要 用 哪个 层 ? 正如 前 面 讨 论 的 那样 ， 层 越 低 ， 内 容重 建 就 越 精确 。 
在 将 内 容重 建 与 风格 融合 在 一 起 时 , 我 们 可 能 会 期 望 对 内 容 进行 的 宽松 重建 将 为 风格 带 来 更 多 的 
空间 (或 灵感 )。 此 外 ,后 面 的 层 可 确保 图 像 看 起 来 像 相同 的 主题 ， 即 使 它 没有 相同 的 细节 。 此 
过 程 使 用 以 下 代码 : 


style_layers [outputs['block{}_conv2'.format(o)] for o in range(1,6)] 
content_name "BLIoCGKAC eornv2. 
content_layer = outputs[content_namel] 


现在 ,使 用 所 需 输出 层 创建 独立 风格 模型 ， 如 下 所 示 : 


style_model 
style_targs 


使 用 内 容 层 为 内 容 创 建 男 一 个 模型 : 


content_ model = Model (model.input, content_layer) 
content_targ = K.variable(content_ model .predict (src)) 


现在 ， 这 两 种 方法 的 融合 就 像 合并 各 自 的 损失 函数 一 样 简单 。 请 注意 ， 与 之 前 的 函数 相反 ， 
此 函数 生成 了 三 种 不 同类 型 的 输出 : 


口 一 幅 用 于 原始 图 像 ; 
口 一 幅 用 于 我 们 正在 模拟 的 图 像 ; 
口 一 幅 用 于 我 们 正在 训练 其 像素 的 随机 图 像 。 


调整 重建 混合 的 一 种 方式 是 改变 内 容 损 失 的 因子 ,我 们 在 这 里 将 其 设 为 110。 如 果 增 加 分 母 ， 
风格 将 对 图 像 产 生 较 大 影响 。 如 果 它 太 大 ,图 像 的 原始 内 容 将 被 非 结构 化 风格 所 谈 芯 同样， 如 
果 它 太 小 ， 那 么 图 像 将 没有 足够 的 风格 。 在 这 个 过 程 中 使 用 如 下 代码 : 


StyLle watsys F005,0.250 270.25i0:3 


loss 消 数 同时 采用 风格 层 和 内 容 层 ， 如 下 所 示 : 


loss = sum(style_loss(11[0], 12[0])*w 
for 11,12,w in zip(style _ layers, style targs, style wgts)) 
loss += metrics.mse(content_layer, content_ targ)/10 
grads = K.gradients (loss, model.input) 
transfer_fn = K.function([model.input], [loss]+grads) 
evaluator = Evaluator (transfer_fn, shp) 


像 以 前 一 样 运行 求解 器 进行 10 次 迭代 ， 使 用 以 下 代码 : 
iterations=10 


x = rangd_img (shp) 
x = solve_ image (evaluator, iterations, x) 


打印 的 损失 值 应 如 下 所 示 : 











Model (model .input, style_layers) 
[K.variable(o) for o in style model.predict (style _ arr)] 
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Current loss value: 2557.953125 

Current loss value: 732.533630371 
Current loss value: 488.321166992 
Current loss value: 385.827178955 
Current loss value: 330.915924072 
Current loss value: 293.238189697 
Current loss value: 262.066864014 
Current loss value: 239.34185791 
Current loss value: 218.086700439 
Current loss value: 203.045211792 











这 些 结果 是 相当 不 错 的 。 它们 中 的 每 一 个 都 以 艺术 家 的 风格 出 色 地 重 现 了 原始 图 像 。 生 成 的 
图 像 如 图 8-19 所 示 。 


现在 结束 风格 迁移 部 分 。 此 操作 非常 慢 , 但 可 以 用 在 任何 图 像 上 。 下 一 节 将 
似 的 想法 来 创建 超 分 辨 率 网 络 。 以 下 几 种 方法 可 以 使 这 一 点 变 得 更 好 : 


口 向 随机 图 像 中 添加 一 个 高 斯 滤波 天 ; 
口 为 一 些 层 添加 不 同 的 权重 ; 





口 保持 颜色 ; 








从 任何 图 像 都 可 以 通过 训练 一 个 CNN 转换 为 具有 艺术 风格 的 图 像 。 




















口 将 不 同 的 层 和 权重 用 于 内 容 ; 
口 初始 化 图 像 而 不 是 初始 化 随机 图 像 ; 
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口 将 掩 码 ( mask ) 用 于 所 需 的 指定 内 容 ; 
口 将 草图 转换 成 绘画 ; 
口 绘制 草图 并 创建 图 像 。 


介绍 


如 何 使 用 类 
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8.3 生成 对 抗 网 络 


生成 对 抗 网 络 〈 generative adversarial network，GAN ) 由 Ian Goodfellow 于 2014 年 发 明 。 它 
是 一 种 无 监督 算法 ,两 个 神经 网 络 分 别 作为 鉴别 器 和 生成 器 同时 进行 训练 。 该 技术 可 以 从 随机 噪 
声 中 生成 图 像 ， 并 由 鉴别 器 评估 是 否 为 原始 图 像 。 经 过 进一步 训练 后 ,生成 器 网 络 可 以 生成 照片 
般 逼 真 的 图 像 。 生 成 器 网 络 通常 是 一 个 反 卷 积 神经 网 络 ， 而 鉴别 器 是 一 个 卷 积 神经 网 络 。 
要 理解 这 一 点 ， 有 一 个 很 好 的 比喻 : 将 生成 器 想象 为 印刷 假 钞 的 人 ， 而 将 鉴别 器 看 作 一 个 判 
断 钱 是 否 为 假 钞 的 警察 。 根 据 警 察 的 反馈 信息 ， 生 成 器 不 断 提高 假 钞 的 质量 ， 直 到 警察 无 法 区 分 
真 假 。 现 在 ， 让 我 们 从 实现 开始 。 























Ey 
































8.3.1 vanilla GAN 


最 初 的 GAN 被 称 为 vanilla GAN。 在 构建 模型 之 前 , 定义 一 些 对 本 章 其 余部 分 有 用 的 层 。 以 
下 是 添加 了 泄露 激活 和 正则 化 的 convolution_layer: 


def convolution_ layer (input_layer, 
filters, 
kernel_size=[4, 4], 
activation=tf.nn.leaky_relu): 
layer = tf.layers.conv2d( 
inputs=input_layer, 
filters=filters, 
kernel_size=kernel_ size, 
activation=activation, 
kernel_regularizer=tf.nn.12_loss, 
bias_regularizer=tf.nn.12_loss, 




















) 
adqd_variable _ summary (layer, 'convolution') 
return layer 


然后 , 使 用 以 下 代码 定义 正则 化 的 transpose_convolution layer, 与 convolution layer 
相反 : 


def transpose_convolution_ layer(input_1ayer， 
filters, 
4]， 


kernel_size=[4, 
activation=tf.nn.relu, 
strides=2): 
layer = tf.layers.conv2d_ transposel 
inputs=input_layer, 
filters=filters, 
kernel_size=kernel_ size, 
activation=activation, 
strides=strides, 
kernel_regularizer=tf.nn.12_loss, 
bias_regularizer=tf.nn.12_loss, 
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adqdq_variable_summary (layer, 'convolution') 
return layer 


接 下 来 ,使 用 以 下 代码 定义 一 个 具有 非 线 性 激活 的 密集 层 : 


def dense layer (input_layer, 
units, 
activation=tf.nn.relu): 
layer = tf.layers.densel 
inputs=input_layer, 
units=units, 





activation=activation 
) 
adqd_variable_summary (layer, 'dense') 
return layer 


现在 定义 一 个 生成 大 ,， 它 将 噪声 作为 输入 并 转换 为 图 像 。 生 成 带 由 一 对 全 连接 层 组 成 ， 然 后 
是 对 噪声 进行 上 采样 的 转 置 卷 积 层 。 最 后 ， 提 出 一 个 卷 积 层 将 噪声 作为 单个 通道 。 每 层 之 间 都 有 
批 归 一 化 层 ， 可 以 使 梯度 平滑 流动 。 我 们 将 使 用 下 面 的 代码 来 定义 生成 器 : 


def get_generator (Input_noise，1is_training=True) : 


















































generator = dense_ layer (input_noise, 1024) 

generator = tf.layers.batch normalization (generator., 
training=is_training) 

generator = dense_layer(generator, 7 * 7 * 256) 

generator = tf.layers.batch normalization (generator, 
training=is_ training) 

generator = tf.reshape (generator, [= SG)) 

generator = transpose_convolution layer (generator, 64) 

generator = tf.layers.batch normalization (generator, 
training=is_ training) 

generator = transpose_convolution layer (generator, 32) 

generator = tf.layers.batch normalization (generator., 
training=is_ training) 

generator = convolution_ layer (generator, 3) 

generator = convolution layer (generator, 1, activation=tf.nn.tannh) 


return generator 


现在 定义 GAN 的 鉴别 器 部 分 ， 该 部 分 获得 图 像 并 试图 区 分 伪造 图 像 和 真实 图 像 。 鉴 别 器 是 
一 个 正常 的 卷 积 网 络 ， 其 中 有 几 个 convolutional_layers， 后 面 是 密集 层 。 批 归 一 化 层 存 在 
于 层 之 间 。 使 用 下 面 的 代码 来 定义 鉴别 器 : 


def get_ discriminator (image, is_training=True): 
x_input_reshape = tf.reshape(image, [-1, 28, 28, 1], 
name='input_reshape') 
discriminator = convolution layer(x_input_reshape, 64) 
discriminator = convolution layer (discriminator, 128) 
discriminator = tf.layers.flatten(discriminator) 
discriminator = dense_layer (discriminator, 1024) 
discriminator = tf.layers.batch normalization(discriminator, 
training=is_ training) 
discriminator = dense_ layer (discriminator, 2) 
return discriminator 
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鉴别 器 创建 后 ， 使 用 以 下 代码 创建 一 个 噪声 向 量 ， 该 向 量 将 作为 生成 器 的 输入 : 
input_noise = tf.random normal([batch size, input_ dimension]) 


GAN 模型 可 以 使 用 TensorFlow 中 的 tf.contrib.gan 模块 创建 , 它 采 用 生成 器 和 鉴别 器 方 
法 及 其 相应 的 输入 ， 如 下 所 示 : 


gan = tf.contrib.gan.gan modell( 
get_generator, 
get_discriminator, 
real_images, 
input_noise) 


现在 ， 可 以 使 用 gan_train 方法 开始 训练 。 该 方法 用 于 生成 器 和 鉴别 器 的 训练 ， 使 用 了 带 
有 损失 和 优化 器 的 gan_train_ops 方法 。 


tf.contrib.gan.gan train( 
tf.contrib.gan.gan train ops( 
gan, 
tf.contrib.gan.gan_loss (gan), 
tf.train.AdamOptimizer(0.001), 
tf.train.AdamOptimizer(0.0001))) 


通过 运行 这 个 方法 ， 一 个 GAN 模型 创建 出 来 了 。 它 可 以 从 随机 向 量 输出 图 像 。 生 成 的 图 像 
不 受 限制 ， 可 以 来 自任 何 标签 。 在 下 一 节 中 ， 我 们 将 使 用 一 个 条 件 GAN 来 产生 想 要 的 输出 。 














8.3.2 条 件 GAN 


条 件 GAN ( conditional GAN ) 可 以 生成 带 有 我 们 想 要 的 标签 的 图 像 。 例 如 ， 我 们 想 要 让 模 
型 生成 数字 8， 模 型 就 会 生成 一 个 8。 为 了 实现 这 一 点 ， 需 要 标签 和 噪声 一 起 进行 模型 训练 ， 如 
下 所 示 : 


gan = tf.contrib.gan.gan model( 
get_generator, 
get_discriminator, 
real_images, 
(input_noise, labels) 


其 余 的 训练 与 vanilla GAN 相似 。 接 下 来 ， 我 们 将 使 用 GAN 来 压缩 图 像 。 











8.3.3 对抗 损 失 


对 抗 损失 ( adversarial loss ) 是 生成 器 的 损失 。 这 种 损失 可 以 与 虚假 图 像 和 真实 图 像 之 间 的 
像素 级 的 损失 相 结合 ， 形 成 组 合 的 对 抗 损 失 。real_images 需要 同时 提供 给 GAN 模型 的 生成 
器 和 鉴别 需 ， 如 下 所 示 : 


gan = tf.contrib.gan.gan modell( 
get_autoencoder, 
get_discriminator, 
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real_images, 
real_images) 


生成 器 是 一 个 自 编 码 器 。 其 实现 可 以 在 第 3 章 中 找到 。 在 此 之 后 , 我们 将 使 用 以 下 代码 来 定 
义 损失 : 


LOSS. = tf ConNntrib.Ganvgan 16ss:( 
gan, gradient penalty=1.0) 


11_ pixel_loss = tf.norm(gan.real data - gan.generated data, ord=1) 


loss = tf.contrib.gan.losses.combine adversarial_loss( 
loss, gan, 11 pixel_loss, weight_factor=1) 


GAN 损失 的 梯度 受到 惩罚 。 然 后 ， 计 算 像素 级 的 损失 并 将 其 添加 到 惩罚 性 损失 中 。 训 练 此 
模型 创建 一 个 强大 的 自 编码 器 ， 可 用 于 图 像 压 缩 。 

















8.3.4 图 像 翻 译 


一 幅 图 像 可 以 被 翻译 成 男 一 幅 图 像 ， 正 如 我 们 在 应 用 部 分 已 经 学 到 的 那样 。 创 建 GAN 模型 
时 ， 输 入 图 像 提供 给 鉴别 部 ， 而 目标 图 像 提供 给 生成 器 ， 如 下 所 示 : 


gan = tf.contrib.gan.gan modell( 
get_generator, 
get_discriminator, 
real_images, 
input_images) 


除了 使 用 像素 级 的 损失 训练 模型 ， 还 可 以 使 用 最 小 平方 损失 。 可 以 使 用 以 下 代码 进行 计算 : 


loss = tf.contrib.gan.gan_loss( 
gan, 
tf.contrib.gan.losses.least_ squares_generator_loss, 
tf.contrib.gan.losses.least squares_ discriminator_loss) 


























11_loss = tf.norm(gan.real_ data - gan.generated data, ord=1) 


gan_loss = tf.contrib.gan.losses.combine adversarial_ loss( 
loss, gan, 11_ loss, weight_factor=1) 


使 用 这 种 技术 ， 一 幅 图 像 可 以 被 翻译 成 另 一 幅 图 像 。 








8.3.5 InfoGAN 


InfoGAN 可 以 生成 所 需 标签 的 图 像 ， 而 无 须 任 何 显 式 的 监督 训练 。infogan_model 采用 非 
结构 化 和 结构 化 的 输入 ， 如 下 所 示 : 
info_gan = tf.contrib.gan.infogan modell( 


get_generator, 
get_discriminator, 
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real_images, 
unstructured_input, 
structured_input) 


loss = tf.contrib.gan.gan_loss( 
info_gan, 
gradient penalty_weight=1, 
gradient penalty_epsilon=1le-10, 
mutual_information penalty_weight=1) 


由 于 训练 不 稳定 ， 损 失 的 定义 带 有 一 个 惩罚 项 。 在 训练 中 增加 惩罚 可 以 提供 更 多 的 稳定 性 。 
8.3.6_ GAN 的 缺点 

GAN 生成 的 图 像 在 一 些 方面 有 缺点 ， 如 计数 、 视 角 和 全 局 结构 。 目 前 正在 进行 广泛 的 研究 ， 
以 改进 模型 。 
8.4 视觉 对 话 模 型 


视觉 对 话 模型 (visual dialogue model，VDM ) 支持 基于 图 像 的 聊天 。VDM 应 用 了 计算 机 视 
觉 、 自 然 语言 处 理 和 聊天 机 器 人 技术 。 它 已 经 找到 了 主要 的 应 用 , 例如 向 盲人 解释 图 像 、 向 医生 
解释 医学 扫描 、 虚 拟 伴侣 ， 等 等 。 接 下 来 ， 我 们 将 学 习 解 决 这 个 问题 的 算法 。 





VDM 算法 


Lu 等 人 提出 了 基于 GAN 的 VDM 算法。 生成 右 生 成 答案 ， 鉴 别 器 对 这 些 答案 进行 排序 。 图 
8-20 是 该 过 程 的 示意 图 。 











! 生成 器 鉴别 器 可 透 穴 村 [Some | 


at nse wm | 
1 do not see any birds 
No J 


1do not see any 
birds 

































eS [rr 
你 看 到 了 什么 鸟 吗 ? No, 
lo ,1do not 
[Nope re 
一 只 灰色 能 猫 趴 在 金属 长 莞 | Not that | can see 
要 ri - 
它 是 彩色 的 吗 ? 是 的 。 se ve | 





是 白天 吗 ? 是 。 
它 是 只 老虎 吗 ? 不 ， 它 是 


Mangoes 








Mangoes 








1 1 
1 1 
1 

1 
1 1 
1 1 
1 1 
1 1 
1 1 
1 1 
1 1 
1 1 
1 ~ 1 
1 问题 1 
1 1 
1 1 
1 1 
1 ! 
1 1 
1 1 
1 1 
1 1 
1 1 
1 1 
1 1 
1 1 


HCIAE 
编码 器 

















-只 普通 的 猫 。 White 
od 历史 回合 i 
lhHai HQI 
* 经 Lu 等 人 许可 转载 





图 8-20 


聊天 历史 、 当 前 问题 和 图 像 作为 输入 传送 给 生成 器 。 接 下 来 介绍 生成 器 的 工作 原理 。 
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1. 生成 器 
生成 器 有 一 个 编码 器 和 解码 器 。 编 码 器 将 图 像 、 问 题 和 历史 记录 作为 输入 。 编 码 器 首先 参照 

















LSTM 的 历史 记录 ， 并 参照 图 像 的 输出 。 流 程 如 图 8-21 所 示 。 











编码 器 
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图 8-21 


整个 历史 记录 都 是 可 用 的 ， 并 且 LSTM 参照 聊天 的 历史 记录 。 和 输出 由 产生 舱 和 的 图 像 处 理 。 
由 编码 器 生成 的 僚 入 被 解码 器 用 来 创建 答案 。 解 码 咒 由 RNN 组 成 。 编 码 顺 和 解码 器 一 起 组 成 生 
成 器 ， 产 生 可 能 的 答案 。 接 下 来 介绍 鉴别 器 是 如 何 工 作 的 。 


2. 鉴别 器 


鉴别 器 从 生成 器 获取 生成 的 序列 并 对 它们 进行 排序 。 排 名 是 通过 半 对 损失 学 习 的 嵌入 来 完成 
的 。 除了 使 用 对 正 负 值 进行 比较 之 外 ,n 对 损失 类 似 于 三 元 组 损失 。 图 8-22 是 该 模型 产生 的 一 
些 结果 。 
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~ 和 Ex 
Q: Is it a home or restaurant? 
A: I think restaurant. 
G-MLE: I can’t tell. 
Ours (z1): Hard to say. 
Ours (z2): It looks like a restaur- 


ant. 
Ours (z3): I can't tell because 让 
is too close. 








Q: Can you see his face? 
A:Iam not sure. 
G-MLE: Yes. 

Ours (z1): I can only see the 
back of his body. 

Ours (z2): No. 

Ours (z3): No ，he's too far 
away. 





Q: How old does the man seem to 
be? 

A: 20's. 

G-MLE: Late teens. 

Ours (z1): On his 20s. 

Ours (z2): In his twenties. 
Ours (z3): Mid 20's. 





Q: Can you see broccoli? 
A: Yes, 3 larger pieces and some 
small. 

G-MLE: No, just the broccoli. 
Ours (z1): I can see broccoli, 
slightly butter. 

Ours (z2): Yes, there is broccoli. 
QOurs (z3): Yes, broccoli is 
green. 
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8-22 


这 样 做 的 结果 比 一 个 简单 的 鉴别 器 产生 的 结果 合理 并 且 更 好 。 
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8.5 小结 








在 本 章 中 , 我 们 学 习 了 生成 模型 和 大 量 的 应 用 。 我们 实现 了 它们 , 在 保留 内 容 的 同时 从 一 种 
图 像 风格 转移 到 另 一 种 ， 理 解 了 GAN 背后 的 直觉 并 训练 模型 达到 相同 的 效果 。 最 后 ， 我 们 了 解 
了 视觉 对 话 系 统 。 





下 一 章 介 绍 视 频 分 析 的 深度 学 习 方 法 。 我 们 将 了 解 如 何 通 过 相机 、 文 件 等 访问 视频 内 容 ， 
然后 通过 在 视频 帧 级 和 视频 整体 上 应 用 分 类 来 实现 视频 分 类 。 我 们 还 会 了 解 如 何 跟踪 视频 中 的 
目标 。 




















视频 分 类 








在 本 章 中 , 我 们 将 学 习 如 何 为 视频 数据 训练 深度 学 习 模 型 。 我 们 将 在 帧 的 基础 上 开始 对 视频 
进行 分 类 ,然后 使 用 时 间 信 息 来 获得 更 好 的 准确 率 , 之 后 将 图 像 的 应 用 扩展 到 视频 , 包括 姿态 估 
计 、 题 注 和 生成 视频 。 


本 章 涉 及 以 下 主题 : 











口 视频 分 类 的 数据 集 和 算法 ; 

口 将 视频 分 成 多 个 帧 并 对 视频 进行 分 类 ; 
口 在 单个 帧 级 别 0 上 为 视觉 特征 训练 模型 ; 
口 了解 3D 卷 积 及 其 在 视频 中 的 使 用 ; 

口 在 视频 中 结合 运动 向 量 ; 

口 利用 时 间 信 息 进行 目标 跟踪 ; 

口 人 体 姿态 估计 和 视频 题 注 等 应 用 。 








9.1 了 解 视频 和 视频 分 类 


视频 不 过 是 一 系列 的 图 像 。 视 频 在 时 间 方 向 上 为 图 像 带 来 了 新 的 维度 。 将 图 像 的 空间 特征 和 
视频 的 时 间 特 征 放 在 一 起 ， 可 以 得 到 比 仅 用 图 像 更 好 的 结果 。 额 外 的 维度 也 产生 了 很 大 的 空间 ， 
因此 增加 了 训练 和 推断 的 复杂 性 。 处 理 视频 的 计算 需求 非常 高 。 视 频 还 改变 了 深度 学 习 模 型 的 架 
构 ， 因 为 我 们 必须 考虑 时 间 特 征 。 

视频 分 类 任务 是 给 视频 标记 类 别 。 类 别 可 以 在 帧 级 别 上 ,也 可 以 在 整个 视频 上 。 视频 中 可 能 
会 执行 某 些 动作 或 任务 。 因 此 , 视频 分 类 可 以 标记 视频 中 出 现 的 目标 或 者 视频 中 发 生 的 动作 。 下 
一 节 将 介绍 可 用 于 视频 分 类 任务 的 数据 集 。 



































9.1.1 探索 视频 分 类 数据 集 
视频 分 类 是 视频 数据 研究 的 主要 问题 。 拍 摄 一 些 视频 并 标记 与 数据 相关 的 各 种 目标 或 动作 。 
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数据 集 根据 标签 的 规模 、 质 量 和 类 型 而 有 所 不 同 。 有些 数据 集 甚 至 包含 多 个 视频 标签 。 这 些 视频 
通常 很 短 。 长 视频 可 能 会 执行 许多 动作 ,因此 在 对 视频 片段 进行 分 类 之 前 会 先 在 时 间 上 把 视频 分 
割 开 。 接 下 来 ， 考 虑 一 些 特定 数据 集 的 细节 。 





1. UCF101 


UCF101 是 一 个 动作 识别 数据 集 。 这 些 视频 是 在 YouTube 上 收集 的 ， 由 实际 的 动作 组 成 。 该 
数据 集中 有 101 个 动作 类 别 。 还 有 一 个 名 为 UCF50 的 数据 集 ， 它 有 50 个 类 别 。UCF101 数据 集 
中 有 13 320 个 视频 。 视 频 具 有 背景 、 缩 放 、 姿 态 、 遗 挡 和 照明 条 件 的 多 样 变 化 。 动 作 类 别 分 为 
25 个 ， 也 分 别 具 有 相似 的 变化 ， 诸 如 背景 、 姿 态 、 缩 放 、 视 点 和 照明 等 。 


9-1 显示 了 动作 名 称 及 其 相应 的 视频 数量 。 
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图 9-1 
所 有 101 个 动作 可 以 分 为 五 种 类 型 : 人 与 物 交 互 , 肢体 动作 ， 人 与 人 交互 , 演奏 乐器 和 运动 。 
接 下 来 ,我们 将 介绍 YouTube-8M 数据 集 。 
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2. YouTube-8M 
YouTube-8M 数据 集 适 用 于 视频 分 类 问题 。 该 数据 集 包 含 带 有 标签 和 视觉 特征 的 视频 网 址 。 
以 下 是 关于 YouTube-8M 数据 集 的 一 些 统计 数据 。 
口 视频 网 址 数量 : 700 万 。 
口 视频 片段 时 长 ( 小 时 ): 450 000。 
口 类 别 标签 数量 : 4716。 
口 每 个 视频 的 平均 标签 数量 : 3.4。 


图 9-2 是 各 种 类 型 数据 集 的 总 结 。 
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图 9-2 


9-2 显示 了 数据 集中 可 用 标签 的 类 型 。 视 频数 据 很 大 ， 因 此 计算 的 视觉 特征 与 数据 集 一 起 
提供 。 





3. 其 他 数据 集 

还 有 一 些 数据 集 可 用 于 视频 分 类 问题 。 以 下 是 几 个 数据 集 的 详细 信息 。 

口 Sports-1M ( Sports -1 Million ): 拥有 1 133 158 个 视频 ，487 个 类 别 。 标 注 是 自动 产生 的 。 
口 UCF-11 ( University of Central Florida -11 actions ): 拥有 1600 个 视频 和 11 个 动作 。 这 
些 视频 每 秒 帧 数 为 29.97。 数 据 集 可 以 与 UCF101 一 起 下 载 。 

口 HMDB-51 (Human Motion DataBase -51 actions ): 拥有 $100 个 视频 ，51 个 动作 。 

口 Hollywood2: 拥有 1707 个 视频 ，12 个 动作 。 
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我 们 已 经 了 解 了 可 用 于 视频 分 类 任务 的 数据 集 , 以 及 描述 和 访问 链接 。 接 下 来 介绍 如 何 加 载 
视频 并 将 其 分 割 为 帧 以 进一步 处 理 。 





9.1.2 ”将 视频 分 割 成 帧 


视频 可 以 转换 为 很 多 帧 ,保存 在 目录 中 供 进一步 使 用 。 分 割 成 帧 可 帮助 我 们 在 训练 过 程 之 前 
解压 缩 视频 ， 从 而 节省 时 间 。 首 先 ， 我 们 来 看 看 用 于 将 视频 转换 为 帧 的 代码 片段 。 


import cv2 
video_ handle = cv2.VideoCapture (video_path) 
frame_no = 
while True: 
eof, frame = video_ handle.read() 
if not eof: 
break 
Cv2.imwrite("frame%d.jpg" %$ frame no, frame) 
frame_no += 1 














使 用 这 个 片段 ， 所 有 前 面 的 数据 集 都 可 以 转换 为 帧 。 请 注意 ,这 将 需要 大 量 的 硬 
盘 空 间 。 


9.1.3 ”视频 分 类 方法 


视频 必须 为 一 些 应 用 分 类 。 由 于 视频 中 包含 大 量 数据 ， 因 此 必须 考虑 训练 和 推断 的 计算 量 。 
所 有 的 视频 分 类 方法 都 受到 网 像 分 类 算法 的 启发 。VGG 、Inception 等 标准 架构 可 以 用 于 帧 级 别 的 
特征 计算 ， 然 后 进一步 处 理 。 在 前 面 的 章节 中 学 到 的 CNN、 注 意 力 机 制 和 LSTM 等 概念 在 这 里 
将 会 很 有 有 用。 直观 地 ， 以 下 方法 可 用 于 视频 分 类 。 


口 提取 帧 并 使 用 第 2 章 中 学 到 的 模型 进行 帧 分 类 。 

口 提取 在 第 3 章 中 学 习 过 的 图 像 特 征 , 并 且 这 些 特征 可 以 用 于 训练 RNN, 如 第 7 章 中 所 述 。 
口 在 整个 视频 上 训练 一 个 3D 卷 积 网 络 。3D 卷 积 是 2D 卷 积 的 扩展 ; 在 下 面 的 几 节 中 将 详细 
介绍 3D 卷 积 的 工作 原理 。 

口 使 用 视频 的 光 流 (optical flow ) 来 进一步 提高 准确 性 。 光 流 是 目标 运动 的 模式 ,在 接 下 来 
的 几 节 中 将 进行 详细 介绍 。 


下 面 几 种 算法 可 以 提供 很 好 的 准确 度 ， 并 具有 各 种 计算 复杂 度 。 可 以 通过 将 视频 转换 为 帧 并 
将 其 下 采样 到 相同 的 长 度 来 准备 数据 集 。 某 些 预 处 理 可 以 提供 帮助 ， 例 如 减 去 Imagenet 的 平均 值 。 


1. 为 视频 分 类 融合 并 行 CNN 


从 帧 级 别 来 看 ， 由 于 图 像 的 下 采样 会 损失 细节 ,视频 的 预测 可 能 不 会 产生 良好 的 结果 。 使 用 
高 分 辩 率 CNN 会 增加 推断 时 间 。 因 此 ，Karpathy 等 人 提出 将 两 个 并 行 运行 的 视频 流 进行 视频 分 
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类 。 做 帧 预测 有 两 个 问题 ， 即 : 
口 由 于 更 大 的 CNN 架构 ， 预 测 可 能 需要 很 长 时 间 ; 
口 独立 预测 会 丢失 沿 时 间 维 度 的 信息 。 

使 用 两 个 较 小 的 编码 器 并 行 运行 可 以 用 更 少 的 参数 简化 架构 。 视 频 同时 通过 两 个 CNN 编码 器 
传递 。 一 个 编码 器 接收 低 分 辨 率 并 处 理 高 分 辩 率 。 编 码 器 具有 交 蔡 的 卷 积 、 归 一 化 和 池 化 层 。 两 个 
编码 器 的 最 后 一 层 通过 全 连接 层 连接 。 另 一 个 编码 器 大 小 相同 ， 但 只 使 用 中 心 裁 甬 ， 如 图 9-3 所 示 。 













































































* 经 Karpathy 等 人 许可 转载 
图 9-3 


通过 对 视频 进行 下 采样 ， 帧 的 并 行 处 理 使 运行 更 快 。CNN 架构 在 保持 相同 精确 度 的 同时 将 
参数 减 半 。 这 两 个 流 被 称 为 fovea 流 和 context 流 。 这 些 流 显 示 在 以 下 代码 片段 中 : 


high resolution input = tf.placeholder (tf.float32, shape=[None, 
input_sizel]) 

low_resolution input = tf.placeholder (tf.float32, shape=[None, input_sizel]) 
y_input = tf.placeholder (tf.float32, shape=[None, no_classes]) 

high_ resolution cnn = get_ model (high resolution_ input) 

low_resolution_ cnn = get_ model (low_resolution input) 

dense_layer_1 = tf.concat([high resolution cnn, low_resolution cnn], 1) 
dense_layer_bottleneck = dense_ layer(dense _ layer_1, 1024) 

logits = dense_ layer (dense_layer bottleneck, no_classes) 


沿 时 间 维 度 处 理 的 帧 如 图 9-4 所 示 。 


视频 可 以 在 不 同 的 时 间 看 到 ,而 不 是 只 能 看 到 固定 大 小 的 几 个 视频 片段 。 在 前 面 的 图 像 中 介 
绍 了 连接 时 间 信 息 的 三 种 方法 。 晚 融合 需要 更 长 的 时 间 ， 而 早 融合 只 需要 几 帧 。 慢 融合 结合 了 晚 
融合 和 早 融合 的 优点 ， 取 得 了 良好 的 效果 。 该 模型 在 Sports1M 数据 集 上 进行 训练 ， 该 数据 集 有 
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487 个 类 别 ， 并 且 达 到 了 50% 的 准确 性 。 同 样 的 模型 应 用 于 UCF101 时 ， 可 以 达到 60% 的 准确 率 。 
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* 经 Karpathy 等 人 许可 转载 


次 
2 
上 


2. 长 时 间 分 类 视频 

融合 方法 适用 于 短视 频 片段 ， 对 较 长 的 视频 进行 分 类 很 困难 ， 因 为 必须 计算 和 记 住 很 多 帧 。 
Ng 等 人 提出 了 两 种 分 类 较 长 视频 的 方法 。 
口 第 一 种 方法 是 在 时 间 上 池 化 卷 积 特 征 。 最 大 池 化 作为 一 个 特征 聚合 方法 。 
口 第 二 种 方法 是 用 一 个 LSTM 连接 卷 积 特征 来 处 理 视频 的 可 变 长 度 。 


图 9-5 显示 了 这 两 种 方法 。 
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* 经 Ng 等 人 许可 转载 
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CNN 特征 可 以 被 提取 并 送 到 一 个 小 的 LSTM 网 络 ， 如 以 下 代码 所 示 : 


net = tf.keras.models.Sequential() 
net.add (tf.keras.layers.LSTM(2048, 
return_sequences=False, 
input_shape=input_shape, 
drobpout=0,.57)) 
net.add (tf.keras.layers.Dense(512, activation='relu')) 
net.add(tf.keras.layers.Dropout (0.5)) 
net.add (tf.keras.layers.Dense(no_classes, activation='softmax')) 


添加 用 于 特征 池 化 的 LSTM 可 以 提供 更 好 的 性 能 。 这 些 特 征 以 各 种 方式 池 化 ， 如 图 9-6 所 示 。 








(e) 时 间 域 池 化 











* 经 Ng 等 人 许可 转载 
图 9-6 
如 图 9-6 所 示 ， 卷 积 特征 可 以 以 几 种 不 同 的 方式 进行 聚合 。 池 化 在 全 连接 层 之 后 完成 。 该 方 


法 在 Sports1M 数据 集 和 UCF101 数据 集中 分 别 达到 了 73.1% 和 88.6% 的 准确 率 。LSTM 方法 如 
图 9-7 所 示 。 
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* 经 Ng 等 人 许可 转载 











为 使 用 了 几 个 LSTM， 这 个 模型 的 计算 复杂 度 结果 很 高 

3. 双 CNN 流动 作 识别 

视频 中 目标 的 运动 具有 关于 动作 非常 好 的 信息 。 目 标的 运动 可 以 通过 光 流 来 量化 。Simonyan 
和 Zisserman 提出 了 一 种 动作 识别 方法 ， 该 方法 使 用 来 自 图 像 的 两 个 流 和 交流。 

光 流 通过 量化 观察 者 和 场景 之 间 的 相对 运动 来 测量 动作 。 通 过 运行 以 下 命令 可 以 获得 光 流 : 


pl, st, err = cv2.calcopticalFlowPyrLK(ol1d_gray，frame_gray，D0，None， 
**]k_params) 





一 个 流 接收 一 个 单独 的 帧 并 使 用 常规 CNN 预测 动作 。 男 一 个 流 需要 多 个 帧 并 计算 光 流 。 光 
流通 过 CNN 进行 预测 。 这 两 个 预测 都 显示 在 图 9-8 中 。 
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。 福 四 止 六 
Figure 1: 视频 分 类 的 双流 架构 


* 经 Simonyan 和 Zisserman 许可 转载 





多 帧 光 流 




















这 两 种 预测 都 可 以 与 最 终 预 测 相 结 合 。 
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4. 使 用 3D 卷 积 进行 时 间 学 习 


视频 可 以 使 用 3D 卷 积 进行 分 类 。3D 卷 积 操作 将 容积 作为 输入 并 输出 容积 ， 而 2D 卷 积 可 以 
接收 一 个 2D 或 容积 输出 并 输出 一 个 2D 图 像 。 差 异 如 图 9-9 所 示 。 
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* 经 Tran 等 人 许可 转载 





图 9-9 


a 和 图 b 属 于 2D 卷 积 , 输出 总 是 一 幅 图 像 。 同 时 ,3D 卷 积 输出 容积 。 不 同 之 处 是 使 用 核 
函数 在 3 个 方向 上 的 卷 积 操作 。Tran 等 人 使 用 3D 卷 积 进行 视频 分 类 。3D 卷 积 模型 如 图 9-10 所 示 。 
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* 经 Tran 等 人 许可 转载 

图 9-10 
以 下 是 使 用 3D 卷 积 的 模型 的 代码 片段 : 
net = tf.keras.models.Sequential() 
net .add (tf.keras.layers.Conv3D(32, 

kernel_size=(3, 3, 3), 
input_shape= (input_shape))) 

net.add (tf.keras.layers.Activation('relu')) 
net.add (tf.keras.layers.Conv3D(32, (3, 3, 3))) 
net.add (tf.keras.layers.Activation('softmax')) 
net.add (tf.keras.layers.MaxPooling3D()) 
net.add (tf.keras.layers.Dropout (0.25)) 
net.add (tf.keras.layers.Conv3D(64, (3, 3, 3))) 
net.add(tf.keras.layers.Activation('relu')) 
net.add(tf.keras.layers.Conv3D(64, (3, 3, 3))) 
net.add(tf.keras.layers.Activation('softmax')) 
net.add (tf.keras.layers.MaxPool3D()) 
net .add (tf.keras.layers.Dropout (0.25)) 
net.add (tf.keras.layers.Flatten()) 
net.add (tf.keras.layers.Dense(512, activation='sigmoid')) 
net .add (tf.keras.layers.Dropout (0.5)) 
net.add(tf.keras.layers.Dense(no_classes, activation='softmax')) 
net.compile(loss=tf.keras.losses.categorical_crossentropy, 


optimizer=tf.keras.optimizers.Adam(), metrics=['accuracy']) 


0 3D 卷 积 需要 大 量 的 计算 能 力 。3D 卷 积 在 Sports1M 数据 集 上 达到 了 90.2% 的 准 
确 率 。 
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5. 使 用 轨迹 进行 分 类 


Wang 等 人 使 用 身体 部 分 的 轨迹 〈trajectory ) 来 分 类 动作 。 这 项 工作 结合 了 手工 制作 和 深度 
学 习 的 特征 进行 最 终 的 预测 。 图 9-11 显示 了 分 类 。 





轨迹 提取 = 轨迹 池 化 一 > ”Fisher 向 量 














输入 视频 ”一 > 卷 积 层 一 > 池 化 层 一 > … 一 > 预期 结果 
* 经 Wang 等 人 许可 转载 
图 9-11 




















手工 制作 的 特征 是 Fisher 向 量 ， 特 征 来 自 CNN。 图 9-12 演示 了 轨迹 和 特征 图 的 提取 。 











| 时 空 归 一 化 通道 归 一 化 














* 经 Wang 等 人 许可 转载 





图 。9-12 
轨迹 和 特征 图 在 时 间 上 组 合 以 形成 对 时 间 片 段 的 最 终 预 测 。 
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6. 多 模 态 融 合 

















Yang 等 人 提出 了 一 种 多 模 态 融合 ， 有 4 种 模型 用 于 视频 分 类 。 这 4 种 模型 是 三 维 卷 积 特征 、 
二 维 光 流 、 三 维 光 流 和 二 维 卷 积 特征 。 


该 方法 中 的 数据 流 如 图 


9-13 所 示 。 
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* 经 Yang 等 人 许可 转载 


图 9-13 

















现在 , 我 们 来 了 解 一 下 Convlet。Convlet 是 来 自 单个 核 的 小 的 卷 积 输出 。 图 9-14 显示 了 使 用 


Convlet 在 卷 积 层 中 学 习 空 间 


权重 的 方法 。 





convlet 








沿 时 间 的 特征 


























* 经 Yang 等 人 许可 转载 
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空间 权重 指示 卷 积 层 中 局 部 空间 区 域 的 区 别 性 或 重要 性 如 何 。 图 9-15 是 融合 多 层 表征 的 图 
示 ， 在 卷 积 层 和 全 连接 层 的 多 个 层 完 成 。 
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* 经 Yang 等 人 许可 转载 





图 。9-15 
提升 (boosting ) 机 制 用 于 组 合 预 测 ， 可 以 把 多 个 模型 预测 合并 为 最 终 预测 。 


7. 注意 区 域 分 类 

注意 力 机 制 可 以 用 于 分 类 。 注意 力 机 制 会 复制 人 在 关注 某 些 区 域 进行 识别 活动 时 的 行为 。 该 
机 制 对 某 些 区 域 赋 予 了 更 高 的 权重 。 赋 予 权 重 的 方法 是 从 数据 中 训练 学 习 到 的 。 注意 力 机 制 主要 
有 以 下 两 种 。 
口 软 注 意 力 : 本 质 上 具有 确定 性 ， 因 此 可 以 通过 反 向 传播 来 学 习 。 
口 人 硬 注意 力 : 本 质 上 具有 随机 性 ， 需 要 复杂 的 机 制 来 学 习 。 由 于 需要 采样 数据 ， 它 还 很 昂贵 。 








图 9-16 是 一 个 软 注 意 力 的 可 视 化 。 




















图 “9-16 
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CNN 特征 根据 注意 力 进 行 计 算 和 加 权 。CNN 特征 给 予 某 些 区 域 的 注意 力 或 权重 可 用 于 可 视 
化 。Sharma 等 人 使 用 这 个 想法 来 分 类 视频 。LSTM 被 用 来 获取 卷 积 特征 。LSTM 通过 注意 后 续 帧 
来 预测 区 域 ， 如 图 9-17 所 示 。 


























* 经 Sharma 等 人 许可 转载 
图 9-17 

LSTM 堆 秋 预测 位 置 和 标签 ， 每 个 堆 释 都 有 三 个 LSTM。LSTM 堆 垂 的 输入 是 一 个 卷 积 特征 
方块 和 位 置 。 位置 可 能 性 是 注意 力 权重 。 注 意 力 的 使 用 提高 了 准确 性 ， 也 可 作为 一 种 预测 的 可 视 
化 方法 。 

我 们 已 经 了 解 了 各 种 视频 分 类 方法 ， 接 下 来 将 介绍 视频 中 的 其 他 应 用 。 
9.2 将 基于 图 像 的 方法 扩展 到 视频 

图 像 可 用 于 姿态 估计 、 风 格 迁移 、 图 像 生成 、 分 割 、 题 注 等 。 同 样 ， 这 些 应 用 在 视频 中 也 有 


一 席 之 地 。 使 用 时 间 信 息 可 以 改善 来 自 图 像 的 预测 ,反之 亦 然 。 本 节 将 介绍 如 何 将 这 些 应 用 扩展 
到 视频 。 















































9.2.1 人 体 姿 态 回归 


人 体 姿态 估计 是 视频 数据 的 重要 应 用 ,并且 可 以 改进 其 他 任务 ， 如 动作 识别 。 首 先 ,我 们 来 
看 看 可 用 于 姿态 估计 的 数据 集 的 描述 。 


口 Poses in the wild dataset: 包含 用 人 体 姿态 标注 的 30 个 视频 。 数据 集 用 人 体 上 肢 关节 标注 。 
口 Frames Labeled In Cinema (FLIC ): 从 30 部 电影 中 获得 的 人 体 姿态 数据 集 。 


Pfister 等 人 提出 了 一 种 预测 视频 中 人 体 姿 态 的 方法 。 图 9-18 是 人 体 姿态 回归 的 流水 线 。 
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* 经 Pfister 等 人 许可 转载 
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图 9-18 
来 自视 频 的 帧 被 接收 并 通过 卷 积 网 络 。 各 层 融 合 , 获得 姿态 热 图 。 姿 态 热 图 与 光 流 组 合 以 获得 
普 曲 的 热 图 。 在 一 定 的 时 间 段 内 普 曲 的 热 图 经 过 池 化 产生 池 化 的 热 图 ， 从 而 得 到 最 终 的 姿态 。 
面部 特征 点 跟踪 


视频 中 的 人 脸 分 析 需 要 人 脸 检 测 、 特 征 点 检测 、 姿 态 估计 、 验 证 等 。 计 算 特 征 点 对 于 捕 提 面部 
动画 、 人 机 交互 和 人 类 活动 识别 尤为 重要 。 这 可 以 通过 视频 来 计算 ， 而 不 是 通过 帧 计算 。Gu 等 人 









































提出 了 一 种 RNN 方法， 在 视频 中 使 用 面部 特征 点 检测 和 跟踪 的 联合 估计 。 其 结果 优 于 帧 级 别 的 预 
测 和 其 他 以 前 的 模型 。 特 征 点 由 CNN 计算 ， 并 且 时 间 方 面 被 编码 在 RNN 中 。 训 练 使 用 合成 数据 。 





9.2.2 ”视频 分 割 


使 用 时 间 信 息 时 ， 可 以 更 好 地 分 割 视频 。Gadde 等 人 提出 了 一 种 通过 翘 曲 来 组 合 时 间 信 息 的 
方法 。 该 解决 方案 分 割 两 个 框架 并 组 合 切 曲 ， 如 图 9-19 所 示 。 
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* 经 Gadde 等 人 许可 转载 





图 9-19 
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Segmentation 





* 经 Gadde 等 人 许可 转载 


光 流 在 两 帧 之 间 计 算 ,， 与 普 曲 相 结 合 。 普 曲 模块 获取 光 流 ， 对 其 进行 变换 并 将 其 与 竹 曲 表征 


组 合 。 


9.2.3 ”视频 题 注 


图 9-20 





第 7 章 说 明了 文字 和 图 像 组 合 的 几 种 方法 。 类 似 地 ， 可 以 为 视频 生成 题 注 ， 描 述 上 下 文 。 让 








我 们 来 看 看 可 用 于 视频 题 注 的 数据 集 丈 





上 表 。 


口 Microsoft Research-Video To Text (MSR-VTT) 拥有 200 000 个 视频 剪辑 和 句子 对 。 
口 MPIl Movie Description Corpus (MPII-MD) 有 68 000 个 句子 和 94 部 电影 。 

口 Montreal Video Annotation Dataset (M-VAD) 有 49 000 个 剪辑 。 

口 YouTube2Text 有 1970 个 视频 和 80 000 个 描述 。 





Yao 等 人 提出 了 一 种 视频 题 注 的 方法 。 一 个 为 动作 识别 的 3D 卷 积 网 络 被 训练 用 于 提取 局 部 





时 间 特 征 。 然 后 使 用 注意 力 机 制 在 特色 








E 上 用 一 个 RNN 生成 文本 。 该 过 程 如 图 9-21 所 示 。 
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* 经 Yao 等 人 许可 转载 


图 9-21 
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Donahue 等 人 提出 了 男 一 种 用 于 视频 题 注 ( 或 描述 ) 的 方法 , 该 方法 使 用 LSTM 和 卷 积 特征 。 
这 与 前 面 的 方法 类 似 ， 只 是 我 们 在 这 里 使 用 了 二 维 卷 积 特征 ， 如 图 9-22 所 示 。 


























序列 学 习 


























* 经 Donahue 等 人 许可 转载 





图 。9-22 


我 们 有 几 种 方法 可 以 将 文本 与 图 像 相 结合 ， 例 如 行为 识别 、 图 像 描述 和 视频 摘 述 技术 。 图 9-23 
展示 了 这 些 技术 。 

















行为 识别 图 像 描述 视频 描述 
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人 Ajlarge || building || with ||a| A] [rman ] Luiced | [tne J[orangs 
ii [clock | [on J[ tne [rront ] [of 
* 经 Donahue 等 人 许可 转载 
图 9-23 




















Venugopalan 等 人 提出 了 一 种 使 用 编码 器 -解码 器 方法 进行 视频 题 注 的 方法 。 图 9-24 是 该 技术 
的 可 视 化 。 
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LSTM 网 络 连接 到 用 于 RGB 帧 的 
CNN 或 用 于 光 流 图 像 的 CNN 





CNN 











CNN- 目 标 输出 LS 
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* 经 Venugopalan 等 人 许可 转载 
图 9-24 


(人 对 于 这 个 方法 ，CNN 可 以 在 图 像 的 帧 或 图 像 的 光 流 上 进行 计算 。 


9.2.4 视频 生成 





视频 可 以 使 用 生成 模型 以 无 监督 的 方式 生成 ， 未 来 帧 可 以 使 用 当前 帧 进行 预测 。Ranzato 等 
人 提出 了 一 种 由 语言 模型 启发 的 视频 生成 方法 。 利 用 一 个 RNN 模型 接收 图 像 的 一 个 图 块 并 预测 





下 一 个 图 块 。 


9.3 小 结 








本 章 讨论 了 与 视频 分 类 有 关 的 各 种 主题 。 我们 了 解 了 如 何 将 视频 分 割 为 多 个 帧 , 并 使 用 图 像 
中 的 深度 学 习 模 型 来 完成 各 种 任务 ; 学 习 了 一 些 特定 于 视频 的 算法 ,如 跟踪 目标 ; 掌握 了 如 何 将 
基于 视频 的 解决 方案 应 用 于 各 种 场景 ， 如 动作 识别 、 手 势 识别 、 安 全 应 用 程序 和 入 侵 检测 。 


在 下 一 章 中 , 我 们 将 学 习 如 何 将 上 一 音 中 训练 好 的 模型 部 署 到 各 种 云 平 台 和 移动 平台 上 的 生 





产 环 境 中 。 我 们 将 了 解 不 同 硬 件 如 何 影 响 延迟 和 吞 中 
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[人 已 
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在 本 章 中 , 我 们 将 学 习 如 何在 各 种 平台 上 部 署 经 过 训练 的 模型 ， 以 获得 最 大 的 吞吐 量 和 最 小 
的 延迟 ; 了解 各 种 硬件 (如 GPU 和 CPU ) 的 性 能 ; 遵循 在 AWS、Google 云 平台 以 及 Android、 
iOS 和 Tegra 等 移动 平台 上 部 署 TensorFlow 的 步骤 。 


本 章 涉 及 以 下 主题 : 
DD 了 解 影响 深度 学 习 模型 训练 和 推断 性 能 的 因素 ; 

D 通过 各 种 方法 提高 性 能 ; 

D 查看 各 种 硬件 的 基准 并 学 习 如 何 调整 它们 以 获得 最 佳 性 
口 使 用 各 种 云 平台 进行 部 署 

D 使 用 各 种 移动 平台 进行 部 署 。 
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10.1 模型 的 性 能 


性 能 对 于 深度 学 习 模 型 的 训练 和 部 署 都 很 重要 。 由 于 大 数据 或 大 型 模型 架构 ,训练 通常 需要 
更 多 时 间 。 由 此 产生 的 模型 可 能 规模 更 大 , 因此 在 存在 RAM 限制 的 移动 设备 中 使 用 时 会 有 问题 。 
更 长 的 计算 时 间 导 致 更 高 的 基础 设施 成 本 。 推断 时 间 在 视频 应 用 中 至 关 重要 。 由 于 前 面 提 到 的 性 
能 重要 性 , 在 本 节 中 , 我们 将 研究 提高 性 能 的 技术 。 降 低 模 型 复杂 度 是 一 个 简单 的 选择 , 但 会 导 
致 准确 率 下 降 。 本 节 , 我 们 将 重点 关注 既 不 会 让 准确 率 大 幅 下 降 又 能 提高 性 能 的 方法 。 下 一 节 将 
讨论 量化 选项 。 














10.1.1 量化 模型 


深度 学 习 模型 的 权重 有 32 位 浮 点 值 。 当 权重 被 量化 为 8 位 时 ， 准 确 率 略 有 下 降 ， 因 此 在 部 
署 时 不 会 被 注意 到 。 权 重 精 确 度 似乎 对 深度 学 习 模 型 的 准确 率 性 能 影响 较 小 。 这 个 关于 深度 学 习 
的 想法 很 有 趣 ， 它 在 模型 规模 变 得 至 关 重 要 时 会 很 有 用 。 通 过 用 8 位 值 蔡 换 32 位 浮 点 值 ， 可 以 
显著 减 小 模型 规模 ,并且 加 快 推断 速度 。 实 现 模型 量化 时 有 很 多 选择 。 权 重 可 以 以 8 位 存储 , 但 
推断 操作 可 以 以 32 位 浮 点 值 执行 。 对 于 量化 大 小 ,架构 的 每 个 组 件 可 能 会 有 不 同 的 表现 ,因此 ， 
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根据 层 的 不 同 ， 可 以 选择 32 位 、16 位 或 8 位 值 。 


量化 能 起 效果 的 原因 有 很 多 。 通常, 深度 学 习 模 型 经 过 训练 可 以 抑制 图 像 中 的 噪声 ， 因 此 可 
以 认为 是 稳健 的 。 推 断 计算 可 能 含有 元 余 信 息 ， 而 匈 余 信息 可 能 由 于 量化 而 被 移 除 。 


最 新 的 CPU 和 RAM 硬件 都 被 调整 为 浮 点 运算 ,因此 在 这 种 硬件 中 的 量化 效果 可 能 不 太 明 
显 。 随 着 越 来 越 多 的 硬件 为 此 而 引入 ， 这 种 情况 正在 发 生变 化 。 在 GPU 中 ， 可 以 注意 到 内 存 和 
速度 的 显著 差异 , 因为 它们 现在 适用 于 较 低 精 确 度 的 浮 点 运算 。 还 有 其 他 特殊 的 硬件 可 用 于 运行 
低 精 确 度 浮 点 运算 。 





















































10.1.2 MobileNets 


Howard 和 其 他 人 推出 了 一 类 名 为 MobileNets 的 新 模型 , 可 用 于 移动 和 肯 人 式 应 用 。 MobileNets 
可 用 于 不 同 的 应 用 ， 如 目标 检测 、 地 标识 别 、 人 脸 属 性 、 细 粒度 分 类 ， 如 图 10-1 所 示 。 

























































































标 检 测 细 粒 度 分 类 
品 Cy> 9 
Photo by Juanede (CC BY 2.0) 区 a 7 此 V AAA |- Photo by HarshLight (CC BY 2.0) 
人 脸 属 性 | 地 标识 别 
MobileNets 
em D> 
* 经 Howard 等 人 许可 转载 
图 10-1 


MobileNets 通过 用 深度 方式 卷 积 滤波 器 和 点 方式 卷 积 滤波 器 替换 标准 卷 积 滤波 器 来 减 小 模 
型 的 规模 和 减少 计算 量 ， 如 图 10-2 所 示 。 
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M 
Dk 
Dk N= 
(a) 标准 卷 积 滤波 器 
1 
a 
Dk —\/ 一 
(b) 深度 方式 卷 积 滤 波 器 
M 
1 
1 —N— 
(0) 点 方式 卷 积 滤波 器 
* 经 Howard 等 人 许可 转载 





图 。10-2 


批 归 一 化 和 激活 层 被 添加 到 深度 方式 卷 积 滤波 右 和 点 方式 卷 积 滤波 右 中 ， 如 图 10-3 所 示 。 

















* 经 Howard 等 人 许可 转载 
图 10-3 





有 两 个 参数 影响 模型 的 选择 。 


口 乘法 和 加 法 的 数量 : 准确 率 和 加 乘 数 量 之 间 的 权衡 如 图 10-4 所 示 。 
































Imagenet 准确 率 与 乘 加 数 
80 
向 se | 
号 es8e 
兴 多 
刁 60 站 
Es 
区 多 
E 
wm 50 
® 
和 
a 
40 
10 100 1000 
百 万 乘 加 数 
* 经 Howard 等 人 许可 转载 
图 10-4 
口 模型 中 的 参数 数量 : 权衡 如 图 10-5 所 示 。 
Imagenet 准确 率 与 参数 数量 
80 
@ 224 @@ 192 160 @ 128 
70 
峙 8 $ 
汝 鲁 
氛 四 加 
划 60 
8 过 
vo 
上 50 2 
3 
Ld 
40 
0.4 0.6 0.8 1 2 4 
百 万 参数 
* 经 Howard 等 人 许可 转载 
图 10-5 


MobileNets 已 经 表明 , 可 以 通过 小 幅 降 低 移 动 和 幅 入 式 设备 上 的 准确 率 来 减 小 模型 计算 和 规 
模 。 可 以 在 Howard 等 人 的 文章 中 看 到 模型 和 准确 率 之 间 的 确切 权衡 。 
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10.2 云 部 署 
对 于 某 些 应 用 ， 模 型 必须 在 云 上 部 署 。 接 下 来 将 介绍 主要 的 云 服务 提供 商 。 





10.2.1 AWS 


亚马逊 Web 服务 ( AWS ) 扩 展 了 对 基于 TensorFlow 模型 的 开发 和 部 署 的 支持 。 在 https://aws. 
amazon.com/ 注 册 AWS 并 选择 其 中 一 个 Amazon Machine Images (AMI )。AMI 是 安装 了 所 有 必 
需 软 件 的 机 器 的 映像 。 你 不 必 担 心安 装 软件 包 。AWS 提供 深度 学 习 AMI (DLAMI )， 以 便于 训 
练 和 部 署 深度 学 习 模 型 。 有 几 种 选择 。 在 这 里 ,我 们 将 使 用 Conda， 因 为 它 带 有 运行 TensorFlow 
所 需 的 几 个 软件 包 。Python 有 两 个 选项 : 版 本 2 和 版 本 3。 使 用 以 下 代码 在 CUDA 8 的 Python 3 
上 用 Keras 2 激活 TensorFlow。 








source activate tensorflow_p36 





使 用 以 下 代码 在 CUDA 8 的 Python 2 上 用 Keras 2 激活 TensorFlow。 


source activate tensorflow_ p27 


6 可 以 访问 https://aws.amazon.com/tensorflow/ 了 解 更 多 详情 和 教程 。 


还 可 以 按照 以 下 步骤 启动 一 个 虚拟 机 (VM )。 


(1) 转 到 aws.amazon.com 并 使 用 你 的 亚马逊 账户 登录 。 
(2) 从 登录 页 面 选择 Launch a virtual machine (启动 虚拟 机 )， 如 图 10-6 所 示 。 














Build a solution 
Get started with simple wizards and automated workflows. 
外 Launch a virtual machine © Build a web app d 避 ] Host a static website 
With EC2 or Lightsail With Elastic Beanstalk With S3, CloudFront, Route 53 
~1-2 minutes ~6 minutes ~5 minutes 
bpTN Connect an loT device Cd Start a development project 从 Register a domain 
Pp With AWS IloT <“@“ With CodeStar ww) with Route 53 
~5 minutes ~5 minutes ~3 minutes 
图 10-6 




















(3) 在 下 一 个 窗口 中 , 通过 单 击 如 图 10-7 所 示 的 Get Started ( 开始 ) 选择 EC2 Instance ( EC2 
实 网 ) 10 
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全 EC2 Instance 


For users with cloud experience who need a 
flexible and scalable virtual machine* 


Why EC2 ? 
。 Fully customizable instance tailored to your needs. 


。 Seamless integration with AWS services. 
。 Flexible solution that scales to support changing workloads. 


Pricing 


。 Pay as you go. Learn more 
。 Free-tier eligible. Learn more 


*This wizard creates an EC2 12.micro instance with default configurations. For more 
options, use the EC2 launch instance wizard. 











10-7 


(4) 为 EC2 实例 命名 ， 如 图 10-8 所 示 。 





Name your EC2 instance 


This is how you will identify your instance in AWS console. Choose a name that is easy for you to 
remember. 








tensorflow 














图 10-8 


(5) 选择 操作 系统 的 类 型 ， 如 图 10-9 所 示 。 
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国 
© 图 eee 
Ubuntu Windows 
Server 16.04 LTS Server 2016 Base more options 


Don't see the OS you are looking for? AWS offers additional options through the advanced EC2 Launch 
Instance wizard or you can explore the AWS Marketplace. 








Select an Operating System 


redr'at 
Red Hat Linux 
Enterprise 7.3 


















suse 
Anazon Linux 
2017.03 


SUSE Linux 
Enterprise Server 12 
SP2 





Ubuntu Server 16.04 LTS 


Next 








(6) 选择 实例 类 型 。 实 例 类 型 表示 具有 不 同 RAM 和 CPU 大 小 的 配置 类 型 。GPU 也 有 几 个 选 
项 可 供 选 择 。 选 择 实例 类 型 并 单 击 “Next” 按 钮 ， 如 图 10-10 所 示 。 





Select an instance type 


more options 





t2.micro 


1 Core vCPU (up to 3.3 GHz, 1 GiB Memory RAM, 8 GB Storage 


Need a different instance type? AWS offers additional options through the advanced EC2 Launch 
Instance wizard. 


Next 














图 10-10 


(7) 创建 用 于 登录 的 保密 增强 邮件 (PEM ) 安全 证 书 文件 ， 如 图 10-11 所 示 。 
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Create a key pair 


Amazon EC2 secures your instance using a key pair. In this step you will download the private key to 
your computer. 


Save it in a safe place and use it when you connect to your instance. 











| tensorflowl | 








图 10-11 


(8) 创建 实例 需要 一 些 时 间 ， 最 后 会 显示 完成 的 状态 ， 如 图 10-12 所 示 。 











Vv) tensorflow 


Status: Completed! 











图 10-12 


(9) 接 下 来 ， 单 击 “Proceed to EC2 console” 按 钮 ， 如 图 10-13 所 示 。 





Proceed to EC2 console 














图 10-13 


(10) 现在 将 创建 实例 ， 单 击 “Connect” 按 钮 ， 如 图 10-14 所 示 。 


Launch Instance “” 平 Connect Actions 立 


Q Name : tensorflow Add filter 














ul Name ~ Instance ID 2 Instance Type 
国 tensorflow i-073f5797e4bcbb9e9 t2.micro 
图 10-14 


(1D) 接 下 来 ， 该 实例 必须 连接 到 虚拟 机 的 命令 提示 符 。 连 接 所 需 的 说 明 在 此 给 出 。 你 需要 在 
前 面 的 步 又 中 下 载 “pem” 文 件 。 按 照 显 示 的 说 明 连接 到 系统 ， 如 图 10-15 所 示 。 
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Connect To Your Instance x 


| would like to connect with ©@ A standalone SSH client 
A Java SSH Client directly from my browser (Java required) 
To access your instance: 


1. Open an SSH client. (find out how to connect using PuTTY) 


2. Locate your private key file (tensorflow1.pem). The wizard automatically detects the key you used to launch the 
instance. 


3. Your key must not be publicly viewable for SSH to work. Use this command if needed: 
chmod 400 tensorflow1.pem 
4. Connect to your instance using its Public DNS: 
ec2-35-165-164-121.us-west-2.compute .amazonaws .com 
Example: 
ssh -i "tensorflowl.pem" ubuntu@ec2-35-165-164-121.us-west-2.compute.amazonaws .com 


Please note that in most cases the username above will be correct, however please ensure that you read your 
AMI usage instructions to ensure that the AMI owner has not changed the default AMI username. 


lf you need any assistance connecting to your instance, please see our connection documentation . 











图 10-15 


(12) 完成 后 ， 单 击 “Actions|Instance State|Terminate” 终 止 实例 ， 如 图 10-16 所 示 。 





Actions ^ 


Connect 


Launch More Like This 


Instance State 

Instance Settings 

Image 

Networking Terminate 


CloudWatch Monitoring 














安装 和 执行 步骤 可 以 根据 第 1 章 进行 。 


10.2.2 Google 云 平台 

















Google Cloud Platform ( GCP ) 是 Google 提供 的 云 平台 ， 具 有 与 AWS 相似 的 功能 。 通 
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行 以 下 步骤 ， 可 以 使 用 简单 的 虚拟 机 来 训练 模型 。 


(1) 使 用 cloud.google.com 访问 Google Cloud Platform， 并 使 用 你 的 Gmail 账户 登录 平台 。 
(2) 现在 点 击 “GO TO CONSOLE” 按 钮 进入 控制 台 ， 如 图 10-17 所 示 。 


GO TO CONSOLE 


图 10-17 


(3) 进入 控制 台 后 , 单 击 右上 角 菜 单 中 的 “Compute Engine|VM instance” 转 至 VM 创建 页 面 ， 
如 图 10-18 所 示 。 




















三 Google Cloud Platform %» My First Project ~ 





会 ”Home 


惟 ， Cloud Launcher 

盏 Billing 

API APls & Services > 
. 

育 Support > 

QB IAM&admin 


合 Getting started 


COMPUTE 
-©: App Engine 
类 ”Compute Engine 和 > VMinstances 


Instance groups 


财 ”Kubernetes Engine 
Instance templates 


(…] Cloud Functions Disks 
Snapshots 
STORAGE Images 


Committed use discounts 
[ey Bigtable 


Metadata 
Datastore > Health checks 

Zones 

| > 

号 Storage Operations 

合 saL Quotas 
Settings 

大 Spanner Cloud Launcher 








人 | 
= VT 


图 10-18 
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(4) 然后 单 击 “CREATE INSTANCE” 按 钮 ， 以 创建 所 需 的 实例 ， 如 图 10-19 所 示 。 





加 CREATE INSTANCE 











图 10-19 
(5) 接 下 来 ， 可 以 使 用 配置 选择 实例 类 型 。 区 域 参数 通知 地 区 实例 将 被 部 署 。 通 过 选择 靠近 
用 户 的 区 域 ， 可 以 节省 延迟 时 间 。 机 器 类 型 可 以 根据 所 需 的 RAM 和 CPU 进行 定制 。GPU 也 可 
以 选择 更 快 的 训练 。 选 择 实例 的 大 小 ， 然 后 单 击 “Create” 按 钮 ， 如 图 10-20 所 示 。 











和 Create an instance 


Name 


instance-2 


Zone 
us-east1-b ~ 


Machine type 
Customize to select cores, memory and GPUs. 


2vCPUs 6 7.5 GB memory Customize 


Container 
Deploy a container image to this VM instance. Learn more 


Boot disk 


Wb New10GB standard persistent disk 
| Image 


Ubuntu 16.04 LTS Change 


ldentity and APl access 


Service account 
Compute Engine default service account v 


Access scopes 

® Allow default access 
Allow full access to all Cloud APIs 
Set access for each API 


Firewall 

Addtags andfirewall rules to allow specific network traffic from the Internet 
V Allow HTTP traffic 

局 Allow HTTPS traffic 





Management, disks, networking, SSH keys 


You will be billed for this instance. Learn more 


EE = 











图 10-20 
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(6) 创 建 实例 需要 几 分 钟 的 时 间 。 然 后 点 击 实例 的 SSH 下 拉 列 表 并 选择 “Open in browser 
window” 选项 ， 如 图 10-21 所 示 在 浏览 器 中 打开 控制 台 。 








instance-2 us-east1-b 10.142.0.2 35.196.173.12 [7 ssH [~| 


Open in browser window 
Open in browser window on custom port 
View gcloud command 


Use another SSH client 














图 10-21 


使 用 shell， 你 可 以 安装 TensorFlow 并 训练 或 部 署 模型 。 有 很 多 选项 可 以 从 虚拟 机 的 配置 中 
进行 选择 。 根 据 成 本 和 时 间 的 权衡 ， 可 以 选择 相应 的 配置 。 


GCP 有 一 台 云 计算 机 学 习 引 警 ， 可 以 帮助 我 们 使 用 TensorFlow。GCP 的 三 个 组 件 可 以 一 起 
用 于 构建 训练 和 部 署 基础 架构 。 


(1) 用 于 预 处 理 图 像 的 Cloud DataFlow。 
(2) 用 于 训练 和 部 署 模型 的 Cloud Machine Learning Engine。 
(3) 用 于 存储 训练 数据 、 代 人 码 和 结果 的 Google Cloud Storage。 














| 











可 以 在 https://cloud.google.com/ml-engine/docs/flowers-tutorial 上 找到 使 用 Cloud Machine 
Learning Engine 构建 自 定 义 图 像 分 类 模型 的 优秀 教程 。 


10.3 在 设备 中 部 署 模型 


TensorFlow 模型 也 可 以 部 署 在 移动 设备 中 。 移动 设备 包括 智能 手机 、 无 人 机 、 家 庭 机 器 人 等 。 
数 十 亿 智 能 手机 可 以 使 用 基于 深度 学 习 的 计算 机 视觉 应 用 程序 。 人 们 可 以 拍摄 照片 并 进行 搜索 ， 
播放 带 有 场景 标记 的 视频 ,等 等 。 在 移动 设备 中 部 署 意味 着 深度 学 习 模 型 出 现在 设备 上 ， 并 在 设 
备 上 进行 推断 。 设备 上 部 署 的 模型 有 助 于 解决 隐私 问题 。 在 接 下 来 的 主题 中 ,我 们 将 讨论 如 何在 
各 种 移动 平台 上 部 署 它 们 。 
































10.3.1 Jetson TX2 


Jetson TX2 是 由 NVIDIA 公司 提供 的 高 效 的 AI 计算 峙 入 设备 。Jetson TX2 轻 量 级 、 简 洁 , 适 
用 于 无 人 机 、 公 共 场 所 等 的 部 署 。 它 还 预 装 了 TensorFlow 的 TensorRT 运行 系统 。 你 可 以 购买 Jetson ， 
并 在 安装 TensorFlow 之 前 安装 Ubuntu 、CUDA 和 CUDNN。 克 隆 https://github.com/jetsonhacks/ 
installTensorFlowTX2 并 在 命令 提示 符 处 输入 以 下 命令 。 
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(1) 首先 ， 安 装 先决 条 件 。 


./installPprerequisites.sh 





(2) 然后 ， 克 隆 TensorFlow。 
./cloneTensorFlow.sh 

(3) 接 下 来 , 设置 所 需 的 环境 变量 。 
./SetTensorFlowEV.sh 


(4) 使 用 以 下 代码 构建 TensorFlow。 


./buildTensorFlow.sh 


(5) 接 下 来 ， 将 程序 包 处 理 成 wheel 文件 。 


./packageTensorFlow.sh 





(6) 最 后 ， 安 装 TensorFlow。 





pip install S$HOME/tensorflow-1.0.1-cp27-cp27mu-linux_ aarch64.whl 


背 助 这 些 步 又 ， 我 们 就 可 以 在 Jetson TX2 中 安装 TensorFlow 了 。 


10.3.2 _ Android 





任何 Android 应 用 程序 都 可 以 使 用 TensorFlow, 并 且 可 以 在 tensorflow.org 网 站 中 找到 要 构建 











的 细节 。 官 方 示例 可 以 在 https://github.com/tensorflow/tensorflow/tree/master/tensorflow/examples/ 
android 中 找到 。 如 果 你 具有 Android 编程 经 验 ， 在 Android 设备 中 实现 Tensorflow 的 步骤 如 下 。 








(1) 使 用 第 3 章 中 介绍 的 步骤 ， 将 TensorFlow 模型 导出 为 .pb 文件 。 
(2) 生成 .so 和 .jar 文件 ， 这 是 二 进 制 文件 。 

(3) 编辑 gradle 文件 以 启用 加 载 库 。 
(4) 加 载 并 运行 Android 应 用 程序 文件 。 











10.3.3 iPhone 








Apple 使 用 CoreML 框架 将 机 器 学 习 整 合 到 iPhone 的 应 用 程序 中 。Apple 提供 了 可 直接 整合 








到 应 用 程序 中 的 标准 模型 列表 。 我 们 可 以 使 用 TensorFlow 训练 自 定义 的 深度 学 习 模 型 ， 并 在 
iPhone 中 使 用 它 。 为 了 部 署 自 定 义 模 型 ， 必 须 在 CoreML 框架 模型 中 隐藏 TensorFlow。Google 
发 布 了 https://github.com/tf-coreml/tf-coreml， 用 于 将 TensorFlow 模型 转换 为 CoreML 模型 。 











TFcoreML 可 以 使 用 以 下 代码 进行 安装 : 


pip install -U tfcoreml 
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该 模型 可 以 使 用 以 下 代码 导出 : 


import tfcoreml as tf_converter 

tf_converter.convert (tf_model path='tf_model_ path.pb', 
mlmodel_path='milmodel_path.mlmodel', 
output_feature names=['softmax:0'], 
input_name_shape_dict={'input:0': [1, 227, 227, 3]}) 


iPhone 可 利用 输出 的 模型 进行 预测 。 





10.4 ”小 结 


在 本 章 中 , 我 们 学 习 了 如 何在 各 种 平台 和 设备 上 部 署 经 过 训练 的 深度 学 习 模 型 ,以 及 针对 这 
些 平台 获得 最 佳 性 能 的 步骤 和 指南 ， 还 了 解 了 MobileNets 的 优点 ， 即 通过 略微 牺牲 准确 率 来 缩 
短 推断 时 间 。 


























微 信 连 接 





回复 “深度 学 习 ” 查 看 相关 书 单 


微 博 连接 
关注 @ 图 灵 教 育 每 日 分 享 |T 好 书 


a 


QQ 连接 


加 


灵 读 者 官方 群 I: 218139230 
灵 读 者 官方 群 I[: 164939616 











到 





图 灵 社 区 
iTuring.cn 
在 线 出 版 ,电子 书 《 码 农 》 杂 志 , 图 灵 访 谈 








深度 学 习 已 在 人 工 智能 的 多 个 应 用 领域 ( 尤其 是 计算 机 视觉 ) 中 展示 了 其 强大 
功能 。 计 算 机 视觉 是 理解 和 处 理 图 像 的 科学 ， 并 且 在 机 器 人 技术 、 自 动 化 等 领域 有 广 
泛 的 应 用 。 


本 书 通 过 实例 展示 了 如 何 利 用 深度 学 习 的 力量 来 开发 计算 机 视觉 应 用 程序 ， 介 
绍 了 与 图 像 分 类 、 图 像 检索 、 目 标 检 测 、 语 义 分 割 、 图 像 题 注 、 生 成 模型 等 有 关 的 各 
种 技术 。 你 将 使 用 流行 的 Python 库 〈 例 如 TensorFlow 和 Keras ) 探索 计算 机 视觉 
应 用 程序 ， 从 而 掌握 各 种 深度 学 习 算 法 及 其 实现 。 


四 ”使 用 TensorFlow 和 Keras 设 置 深度 学 习 的 环境 
探索 图 像 分 类 方法 并 训练 一 个 深度 学 习 模型 
使 用 预 训 练 的 卷 积 神经 网 络 模型 进行 图 像 检 索 
了 解 检测 方法 并 实施 行人 检测 
了 解 图 像 题 注 中 的 各 种 问题 及 其 实现 
训练 一 个 使 用 生成 对 抗 网 络 生成 图 像 的 模型 
了 解 视频 分 类 的 方法 及 其 实现 
部 署 深 度 学 习 模型 并 进行 优化 


Packt> 


WAAL Tol ade lo Nee] | 


图 灵 社区 : iTuring.cn 
热线 : (010)51095183 转 600 


人 民 邮 电 出 版 社 网 址 . www.ptpress.com.cn 





看 完了 


如 果 您 对 本 书 内 容 有 疑问 ， 可 发 邮件 至 contact@turingbook.com， 会 有 编辑 或 作 
译 者 协助 答疑 。 也 可 访问 图 灵 社 区 ， 参 与 本 书 讨论 。 


如 果 是 有 关 电 子 书 的 建议 或 问题 ， 请 联系 专用 客服 邮箱 : 


ebook@turingbook.com。 
在 这 可 以 找到 我 们 : 


微 博 @ 图 灵 教育 : 好 书 、 活 动 每 日 播报 

微 博 @ 图 灵 社 区 : 电子 书 和 好 文章 的 消息 

微 博 @ 图 灵 新 知 : 图 灵 教 育 的 科普 小 组 

微 信 图 灵 访 谈 : ituring_interview， 讲 述 码 农 精彩 人 生 
微 信 图 灵 教 育 : turingbooks 


